மொழிபெயர்ப்பு வரிசை: தொகுப்புச் செயலாக்க முறைமை

இந்தக் கட்டுரை, AI API பயன்பாட்டை மேம்படுத்த, மொழிபெயர்ப்புகளை நாம் எவ்வாறு வரிசைப்படுத்தி தொகுப்புச் செயலாக்கம் செய்கிறோம் என்பதை விளக்குகிறது.

சிக்கல்: கோரிக்கைக்கேற்ப மொழிபெயர்ப்பு விலையுயர்ந்தது

உடனடித் தேவைக்கு உள்ளடக்கத்தை மொழிபெயர்ப்பதில் பின்வரும் சிக்கல்கள் உள்ளன:

  • மெதுவானது: ஒவ்வொரு மொழிபெயர்ப்பும் 1-2 விநாடிகள் எடுக்கும்

  • விலையுயர்ந்தது: கோரிக்கைக்கான API செலவுகள்

  • மீள் செயல்: ஒரே உரை பல முறை மொழிபெயர்க்கப்படுகிறது

  • தடுப்பு: பயனர் மொழிபெயர்ப்புக்காகக் காத்திருக்க வேண்டும்

எனவே, ஒரு சிறந்த அணுகுமுறை நமக்குத் தேவை.

தீர்வு: வரிசை மற்றும் தொகுப்பு

வரிசை: மொழிபெயர்ப்புக் கோரிக்கைகளைச் சேகரிக்கவும்

தொகுப்பு: பல மொழிபெயர்ப்புகளை ஒன்றாகச் செயலாக்கவும்

தற்காலிக நினைவகம்: முடிவுகளை மீண்டும் பயன்படுத்த சேமிக்கவும்

அட்டவணைப்படுத்தல்: வரிசையை காலமுறையில் செயலாக்கவும் (உடனடி நேரம் அல்ல)

வரிசை அமைப்பு

வரிசைக் கோப்பு

இருப்பிடம்: வட்டில் உள்ள JSON கோப்பு

வடிவம்: மொழிபெயர்ப்புக் கோரிக்கைகளின் வரிசை

புலங்கள்:

  • text: மொழிபெயர்க்க வேண்டிய ஆங்கில உரை

  • target_lang: மொழிக் குறியீடு (hi, de, fr, போன்றவை)

  • context: உரை எங்கே தோன்றுகிறது (தயாரிப்பு, வினவல், கட்டுரை)

  • priority: உயர்/இயல்பு/குறைந்த

வரிசையில் சேர்த்தல்

மொழிபெயர்ப்பு காணாமல் போனால்:

queue_translation(text, target_lang, context="product")

நகல் நீக்கம்: ஏற்கனவே வரிசையில் உள்ளதா எனச் சரிபார்க்கவும்

சரிபார்ப்பு: பயனற்ற மதிப்புகளை நிராகரிக்கவும்

தொகுப்புச் செயலாக்கம்

ஸ்கிரிப்ட்

இருப்பிடம்: scripts/web/process_translation_queue.py

அட்டவணை: cron மூலம் ஒவ்வொரு 6 மணி நேரத்திற்கும் இயங்கும்

பூட்டு கோப்பு: ஒரே நேரத்தில் இயக்கங்களைத் தடுக்கிறது

செயலாக்கப் பாய்வு

1. வரிசையை ஏற்றவும்: அனைத்து நிலுவையில் உள்ள கோரிக்கைகளையும் படிக்கவும்

2. மொழியின்படி தொகுக்கவும்: ஒரே மொழிக் கோரிக்கைகளைத் தொகுக்கவும்

3. நகல் நீக்கவும்: தொகுப்பிற்குள் இரட்டிப்புகளை அகற்றவும்

4. தற்காலிக நினைவகத்தைச் சரிபார்க்கவும்: ஏற்கனவே மொழிபெயர்க்கப்பட்ட உரைகளைத் தவிர்க்கவும்

5. தொகுப்பை மொழிபெயர்க்கவும்: DeepSeek API க்கு அனுப்பவும்

6. முடிவுகளைப் பிரித்தெடுக்கவும்: பதிலிலிருந்து மொழிபெயர்ப்புகளைப் பிரித்தெடுக்கவும்

7. தற்காலிக நினைவகத்தில் சேமிக்கவும்: சொற்றொடர் அட்டவணைகளில் சேமிக்கவும்

8. வரிசையை அழிக்கவும்: செயலாக்கப்பட்ட கோரிக்கைகளை அகற்றவும்

தொகுப்பு மொழிபெயர்ப்பு

API அழைப்பு

மாதிரி: DeepSeek-V3 (Together.ai வழியாக)

கணினி தூண்டுதல்: தற்காலிக நினைவகத்தில் சேமிக்கப்பட்டது (மொழியில் உள்ள அனைத்து தொகுப்புகளுக்கும் ஒன்றே)

பயனர் தூண்டுதல்: மாறி (தொகுப்பு-குறிப்பிட்ட)

வடிவம்: எண்ணிடப்பட்ட பட்டியல்

எடுத்துக்காட்டு:

இந்த 10 உரைகளை மொழிபெயர்க்கவும்:
1. Mini PC
2. Thin Client
3. Compact Desktop
...

பதில்:

1. மினி பிசி
2. தின் கிளையன்ட்
3. காம்பாக்ட் டெஸ்க்டாப்
...

பாகுபடுத்துதல்

வரி எண்ணின் மூலம் மொழிபெயர்ப்புகளைப் பிரித்தெடுக்கவும்:

  • எண் முன்னொட்டை அகற்றவும் (1., 2., போன்றவை)

  • நிலையின் மூலம் அசல் உரைகளுடன் பொருந்தவும்

  • எண்ணிக்கை பொருந்துகிறதா எனச் சரிபார்க்கவும்

பிழை கையாளுதல்

API தோல்வி: காப்பு API உடன் மீண்டும் முயற்சிக்கவும்

பாகுபடுத்துதல் தோல்வி: அசல் உரைகளைத் திருப்பி அனுப்பவும்

பகுதி வெற்றி: வெற்றிகரமான மொழிபெயர்ப்புகளைச் சேமிக்கவும், தோல்வியடைந்தவற்றை மீண்டும் வரிசையில் சேர்க்கவும்

தற்காலிக நினைவக மூலோபாயம்

சொற்றொடர் அட்டவணைகள்

இருப்பிடம்: மொழிக்கான JSON கோப்புகள்

வடிவம்: {"English": "Translation"}

ஏற்றுதல்: தொடக்கத்தில் ஒரு முறை ஏற்றப்படும்

பயன்: விரைவான தேடல்கள், API அழைப்புகள் இல்லை

தற்காலிக நினைவகம் தாக்க விகிதம்

முதல் இயக்கம்: குறைவு (எல்லாமே புதியது)

அடுத்தடுத்த இயக்கங்கள்: அதிகம் (பெரும்பாலான உரைகள் தற்காலிக நினைவகத்தில் உள்ளன)

பயன்: API செலவுகள் குறைக்கப்பட்டன

பாதுகாப்பு விதிகள்

மொழிபெயர்ப்பின் போது, நாம் பின்வருவனவற்றைப் பாதுகாக்கிறோம்:

பிராண்ட் பெயர்கள்: Thinvent®, Intel®, AMD®

HTML குறிச்சொற்கள்: <p>, <br>, <strong>

URLகள்: https://www.thinvent.in

SKUகள்: Treo-N100-8-256

எண்கள்: 8GB, 256GB, 4 cores

செயலாக்கம்: கணினி தூண்டுதலில் உள்ள Regex வடிவங்கள்

மொழி கண்டறிதல்

மொழிபெயர்க்கும் முன், ஏற்கனவே மொழிபெயர்க்கப்பட்டுள்ளதா எனச் சரிபார்க்கவும்:

முறை: எழுத்துத் தொகுப்புப் பகுப்பாய்வு

இந்தி: தேவநாகரி எழுத்துமுறை

சீனம்: CJK எழுத்துக்கள்

அரபு: அரபு எழுத்துமுறை

பயன்: தேவையற்ற மொழிபெயர்ப்புகளைத் தவிர்க்கவும்

முன்னுரிமை கையாளுதல்

உயர் முன்னுரிமை: தயாரிப்புப் பெயர்கள், அம்சங்கள் (முதலில் செயலாக்கவும்)

இயல்பு முன்னுரிமை: விளக்கங்கள், கட்டுரைகள் (இரண்டாவதாக செயலாக்கவும்)

குறைந்த முன்னுரிமை: பழைய உள்ளடக்கம், அரிதாகப் பார்க்கப்படுவது (கடைசியாக செயலாக்கவும்)

பயன்: முக்கியமான உள்ளடக்கம் முதலில் மொழிபெயர்க்கப்படும்

அட்டவணைப்படுத்தல்

Cron வேலை

அதிர்வெண்: ஒவ்வொரு 6 மணி நேரத்திற்கும்

கட்டளை: python3 scripts/web/process_translation_queue.py

பூட்டு கோப்பு: /tmp/process_translation_queue.lock

பயன்: தானியங்கி செயலாக்கம், கைமுறை தலையீடு இல்லை

வாராந்திர பணிகள்

கட்டுரைகள்: புதிய கட்டுரைகளை வாராந்திரமாக மொழிபெயர்க்கவும்

பேபல் சரங்கள்: வாராந்திரமாக டெம்ப்ளேட் மொழிபெயர்ப்புகளைப் புதுப்பிக்கவும்

ஸ்கிரிப்ட்: scripts/web/translate_articles_weekly.sh

கண்காணிப்பு

வரிசை அளவு

நிலுவையில் உள்ள கோரிக்கைகளைக் கண்காணிக்கவும்:

  • மொத்தக் கோரிக்கைகள்

  • மொழிக்கான கோரிக்கைகள்

  • பழமையான கோரிக்கை வயது

எச்சரிக்கை: வரிசை மிக அதிகமாக வளர்ந்தால்

மொழிபெயர்ப்பு புள்ளிவிவரங்கள்

செயலாக்கத்தைக் கண்காணிக்கவும்:

  • தொகுப்பிற்கான மொழிபெயர்ப்புகள்

  • API வெற்றி விகிதம்

  • தற்காலிக நினைவகம் தாக்க விகிதம்

  • செயலாக்க நேரம்

செலவு கண்காணிப்பு

API பயன்பாட்டைக் கண்காணிக்கவும்:

  • நாளுக்கான கோரிக்கைகள்

  • கோரிக்கைக்கான டோக்கன்கள்

  • மொழிக்கான செலவு

குறிப்புகள்

தொடர்புடைய கட்டுரைகள்

சுருக்கம்

மொழிபெயர்ப்பு வரிசை திறமையான தொகுப்புச் செயலாக்கத்தைச் சாத்தியமாக்குகிறது:

வரிசை:

  • ✅ மொழிபெயர்ப்புக் கோரிக்கைகளைச் சேகரிக்கவும்

  • ✅ தொகுப்பிற்குள் நகல் நீக்கவும்

  • ✅ முன்னுரிமை கையாளுதல்

  • ✅ சரிபார்ப்பு மற்றும் வடிகட்டுதல்

தொகுப்புச் செயலாக்கம்:

  • ✅ மொழியின்படி தொகுக்கவும்

  • ✅ DeepSeek API க்கு அனுப்பவும்

  • ✅ எண்ணிடப்பட்ட பதில்களைப் பாகுபடுத்தவும்

  • ✅ சொற்றொடர் அட்டவணைகளில் சேமிக்கவும்

தற்காலிக நினைவகம்:

  • ✅ மொழிபெயர்க்கும் முன் தற்காலிக நினைவகத்தைச் சரிபார்க்கவும்

  • ✅ அதிக தற்காலிக நினைவகம் தாக்க விகிதம்

  • ✅ குறைக்கப்பட்ட API செலவுகள்

அட்டவணைப்படுத்தல்:

  • ✅ cron மூலம் ஒவ்வொரு 6 மணி நேரத்திற்கும்

  • ✅ பூட்டு கோப்பு ஒரே நேரத்தில் இயக்கங்களைத் தடுக்கிறது

  • ✅ வாராந்திரக் கட்டுரை மொழிபெயர்ப்புகள்

பாதுகாப்பு:

  • ✅ பிராண்ட் பெயர்கள்

  • ✅ HTML குறிச்சொற்கள்

  • ✅ URLகள் மற்றும் SKUகள்

இந்த அணுகுமுறை, தொகுப்புச் செயலாக்கம் மற்றும் தற்காலிக நினைவகம் மூலம் API செலவுகளைக் குறைக்கிறது மற்றும் மொழிபெயர்ப்புத் தரத்தை மேம்படுத்துகிறது.


← ஆவணமாக்கல் குறியீட்டிற்குத் திரும்புக