மொழிபெயர்ப்பு வரிசை: தொகுப்புச் செயலாக்க முறைமை
இந்தக் கட்டுரை, AI API பயன்பாட்டை மேம்படுத்த, மொழிபெயர்ப்புகளை நாம் எவ்வாறு வரிசைப்படுத்தி தொகுப்புச் செயலாக்கம் செய்கிறோம் என்பதை விளக்குகிறது.
சிக்கல்: கோரிக்கைக்கேற்ப மொழிபெயர்ப்பு விலையுயர்ந்தது
உடனடித் தேவைக்கு உள்ளடக்கத்தை மொழிபெயர்ப்பதில் பின்வரும் சிக்கல்கள் உள்ளன:
-
மெதுவானது: ஒவ்வொரு மொழிபெயர்ப்பும் 1-2 விநாடிகள் எடுக்கும்
-
விலையுயர்ந்தது: கோரிக்கைக்கான API செலவுகள்
-
மீள் செயல்: ஒரே உரை பல முறை மொழிபெயர்க்கப்படுகிறது
-
தடுப்பு: பயனர் மொழிபெயர்ப்புக்காகக் காத்திருக்க வேண்டும்
எனவே, ஒரு சிறந்த அணுகுமுறை நமக்குத் தேவை.
தீர்வு: வரிசை மற்றும் தொகுப்பு
வரிசை: மொழிபெயர்ப்புக் கோரிக்கைகளைச் சேகரிக்கவும்
தொகுப்பு: பல மொழிபெயர்ப்புகளை ஒன்றாகச் செயலாக்கவும்
தற்காலிக நினைவகம்: முடிவுகளை மீண்டும் பயன்படுத்த சேமிக்கவும்
அட்டவணைப்படுத்தல்: வரிசையை காலமுறையில் செயலாக்கவும் (உடனடி நேரம் அல்ல)
வரிசை அமைப்பு
வரிசைக் கோப்பு
இருப்பிடம்: வட்டில் உள்ள JSON கோப்பு
வடிவம்: மொழிபெயர்ப்புக் கோரிக்கைகளின் வரிசை
புலங்கள்:
-
text: மொழிபெயர்க்க வேண்டிய ஆங்கில உரை -
target_lang: மொழிக் குறியீடு (hi, de, fr, போன்றவை) -
context: உரை எங்கே தோன்றுகிறது (தயாரிப்பு, வினவல், கட்டுரை) -
priority: உயர்/இயல்பு/குறைந்த
வரிசையில் சேர்த்தல்
மொழிபெயர்ப்பு காணாமல் போனால்:
queue_translation(text, target_lang, context="product")
நகல் நீக்கம்: ஏற்கனவே வரிசையில் உள்ளதா எனச் சரிபார்க்கவும்
சரிபார்ப்பு: பயனற்ற மதிப்புகளை நிராகரிக்கவும்
தொகுப்புச் செயலாக்கம்
ஸ்கிரிப்ட்
இருப்பிடம்: scripts/web/process_translation_queue.py
அட்டவணை: cron மூலம் ஒவ்வொரு 6 மணி நேரத்திற்கும் இயங்கும்
பூட்டு கோப்பு: ஒரே நேரத்தில் இயக்கங்களைத் தடுக்கிறது
செயலாக்கப் பாய்வு
1. வரிசையை ஏற்றவும்: அனைத்து நிலுவையில் உள்ள கோரிக்கைகளையும் படிக்கவும்
2. மொழியின்படி தொகுக்கவும்: ஒரே மொழிக் கோரிக்கைகளைத் தொகுக்கவும்
3. நகல் நீக்கவும்: தொகுப்பிற்குள் இரட்டிப்புகளை அகற்றவும்
4. தற்காலிக நினைவகத்தைச் சரிபார்க்கவும்: ஏற்கனவே மொழிபெயர்க்கப்பட்ட உரைகளைத் தவிர்க்கவும்
5. தொகுப்பை மொழிபெயர்க்கவும்: DeepSeek API க்கு அனுப்பவும்
6. முடிவுகளைப் பிரித்தெடுக்கவும்: பதிலிலிருந்து மொழிபெயர்ப்புகளைப் பிரித்தெடுக்கவும்
7. தற்காலிக நினைவகத்தில் சேமிக்கவும்: சொற்றொடர் அட்டவணைகளில் சேமிக்கவும்
8. வரிசையை அழிக்கவும்: செயலாக்கப்பட்ட கோரிக்கைகளை அகற்றவும்
தொகுப்பு மொழிபெயர்ப்பு
API அழைப்பு
மாதிரி: DeepSeek-V3 (Together.ai வழியாக)
கணினி தூண்டுதல்: தற்காலிக நினைவகத்தில் சேமிக்கப்பட்டது (மொழியில் உள்ள அனைத்து தொகுப்புகளுக்கும் ஒன்றே)
பயனர் தூண்டுதல்: மாறி (தொகுப்பு-குறிப்பிட்ட)
வடிவம்: எண்ணிடப்பட்ட பட்டியல்
எடுத்துக்காட்டு:
இந்த 10 உரைகளை மொழிபெயர்க்கவும்:
1. Mini PC
2. Thin Client
3. Compact Desktop
...
பதில்:
1. மினி பிசி
2. தின் கிளையன்ட்
3. காம்பாக்ட் டெஸ்க்டாப்
...
பாகுபடுத்துதல்
வரி எண்ணின் மூலம் மொழிபெயர்ப்புகளைப் பிரித்தெடுக்கவும்:
-
எண் முன்னொட்டை அகற்றவும் (
1.,2., போன்றவை) -
நிலையின் மூலம் அசல் உரைகளுடன் பொருந்தவும்
-
எண்ணிக்கை பொருந்துகிறதா எனச் சரிபார்க்கவும்
பிழை கையாளுதல்
API தோல்வி: காப்பு API உடன் மீண்டும் முயற்சிக்கவும்
பாகுபடுத்துதல் தோல்வி: அசல் உரைகளைத் திருப்பி அனுப்பவும்
பகுதி வெற்றி: வெற்றிகரமான மொழிபெயர்ப்புகளைச் சேமிக்கவும், தோல்வியடைந்தவற்றை மீண்டும் வரிசையில் சேர்க்கவும்
தற்காலிக நினைவக மூலோபாயம்
சொற்றொடர் அட்டவணைகள்
இருப்பிடம்: மொழிக்கான JSON கோப்புகள்
வடிவம்: {"English": "Translation"}
ஏற்றுதல்: தொடக்கத்தில் ஒரு முறை ஏற்றப்படும்
பயன்: விரைவான தேடல்கள், API அழைப்புகள் இல்லை
தற்காலிக நினைவகம் தாக்க விகிதம்
முதல் இயக்கம்: குறைவு (எல்லாமே புதியது)
அடுத்தடுத்த இயக்கங்கள்: அதிகம் (பெரும்பாலான உரைகள் தற்காலிக நினைவகத்தில் உள்ளன)
பயன்: API செலவுகள் குறைக்கப்பட்டன
பாதுகாப்பு விதிகள்
மொழிபெயர்ப்பின் போது, நாம் பின்வருவனவற்றைப் பாதுகாக்கிறோம்:
பிராண்ட் பெயர்கள்: Thinvent®, Intel®, AMD®
HTML குறிச்சொற்கள்: <p>, <br>, <strong>
URLகள்: https://www.thinvent.in
SKUகள்: Treo-N100-8-256
எண்கள்: 8GB, 256GB, 4 cores
செயலாக்கம்: கணினி தூண்டுதலில் உள்ள Regex வடிவங்கள்
மொழி கண்டறிதல்
மொழிபெயர்க்கும் முன், ஏற்கனவே மொழிபெயர்க்கப்பட்டுள்ளதா எனச் சரிபார்க்கவும்:
முறை: எழுத்துத் தொகுப்புப் பகுப்பாய்வு
இந்தி: தேவநாகரி எழுத்துமுறை
சீனம்: CJK எழுத்துக்கள்
அரபு: அரபு எழுத்துமுறை
பயன்: தேவையற்ற மொழிபெயர்ப்புகளைத் தவிர்க்கவும்
முன்னுரிமை கையாளுதல்
உயர் முன்னுரிமை: தயாரிப்புப் பெயர்கள், அம்சங்கள் (முதலில் செயலாக்கவும்)
இயல்பு முன்னுரிமை: விளக்கங்கள், கட்டுரைகள் (இரண்டாவதாக செயலாக்கவும்)
குறைந்த முன்னுரிமை: பழைய உள்ளடக்கம், அரிதாகப் பார்க்கப்படுவது (கடைசியாக செயலாக்கவும்)
பயன்: முக்கியமான உள்ளடக்கம் முதலில் மொழிபெயர்க்கப்படும்
அட்டவணைப்படுத்தல்
Cron வேலை
அதிர்வெண்: ஒவ்வொரு 6 மணி நேரத்திற்கும்
கட்டளை: python3 scripts/web/process_translation_queue.py
பூட்டு கோப்பு: /tmp/process_translation_queue.lock
பயன்: தானியங்கி செயலாக்கம், கைமுறை தலையீடு இல்லை
வாராந்திர பணிகள்
கட்டுரைகள்: புதிய கட்டுரைகளை வாராந்திரமாக மொழிபெயர்க்கவும்
பேபல் சரங்கள்: வாராந்திரமாக டெம்ப்ளேட் மொழிபெயர்ப்புகளைப் புதுப்பிக்கவும்
ஸ்கிரிப்ட்: scripts/web/translate_articles_weekly.sh
கண்காணிப்பு
வரிசை அளவு
நிலுவையில் உள்ள கோரிக்கைகளைக் கண்காணிக்கவும்:
-
மொத்தக் கோரிக்கைகள்
-
மொழிக்கான கோரிக்கைகள்
-
பழமையான கோரிக்கை வயது
எச்சரிக்கை: வரிசை மிக அதிகமாக வளர்ந்தால்
மொழிபெயர்ப்பு புள்ளிவிவரங்கள்
செயலாக்கத்தைக் கண்காணிக்கவும்:
-
தொகுப்பிற்கான மொழிபெயர்ப்புகள்
-
API வெற்றி விகிதம்
-
தற்காலிக நினைவகம் தாக்க விகிதம்
-
செயலாக்க நேரம்
செலவு கண்காணிப்பு
API பயன்பாட்டைக் கண்காணிக்கவும்:
-
நாளுக்கான கோரிக்கைகள்
-
கோரிக்கைக்கான டோக்கன்கள்
-
மொழிக்கான செலவு
குறிப்புகள்
தொடர்புடைய கட்டுரைகள்
-
மொழிபெயர்ப்பு முறைமை - மூன்று-தொழில்நுட்பக் கலப்பு
-
உள்ளடக்கம் AI உருவாக்கம் - DeepSeek ஒருங்கிணைப்பு
-
மொழி கண்டறிதல் - பயனர் மொழி விருப்பம்
சுருக்கம்
மொழிபெயர்ப்பு வரிசை திறமையான தொகுப்புச் செயலாக்கத்தைச் சாத்தியமாக்குகிறது:
வரிசை:
-
✅ மொழிபெயர்ப்புக் கோரிக்கைகளைச் சேகரிக்கவும்
-
✅ தொகுப்பிற்குள் நகல் நீக்கவும்
-
✅ முன்னுரிமை கையாளுதல்
-
✅ சரிபார்ப்பு மற்றும் வடிகட்டுதல்
தொகுப்புச் செயலாக்கம்:
-
✅ மொழியின்படி தொகுக்கவும்
-
✅ DeepSeek API க்கு அனுப்பவும்
-
✅ எண்ணிடப்பட்ட பதில்களைப் பாகுபடுத்தவும்
-
✅ சொற்றொடர் அட்டவணைகளில் சேமிக்கவும்
தற்காலிக நினைவகம்:
-
✅ மொழிபெயர்க்கும் முன் தற்காலிக நினைவகத்தைச் சரிபார்க்கவும்
-
✅ அதிக தற்காலிக நினைவகம் தாக்க விகிதம்
-
✅ குறைக்கப்பட்ட API செலவுகள்
அட்டவணைப்படுத்தல்:
-
✅ cron மூலம் ஒவ்வொரு 6 மணி நேரத்திற்கும்
-
✅ பூட்டு கோப்பு ஒரே நேரத்தில் இயக்கங்களைத் தடுக்கிறது
-
✅ வாராந்திரக் கட்டுரை மொழிபெயர்ப்புகள்
பாதுகாப்பு:
-
✅ பிராண்ட் பெயர்கள்
-
✅ HTML குறிச்சொற்கள்
-
✅ URLகள் மற்றும் SKUகள்
இந்த அணுகுமுறை, தொகுப்புச் செயலாக்கம் மற்றும் தற்காலிக நினைவகம் மூலம் API செலவுகளைக் குறைக்கிறது மற்றும் மொழிபெயர்ப்புத் தரத்தை மேம்படுத்துகிறது.