ਅਨੁਵਾਦ ਕਤਾਰ: ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ ਸਿਸਟਮ
ਇਹ ਲੇਖ ਦੱਸਦਾ ਹੈ ਕਿ ਅਸੀਂ AI API ਦੀ ਵਰਤੋਂ ਨੂੰ ਆਪਟੀਮਾਈਜ਼ ਕਰਨ ਲਈ ਅਨੁਵਾਦਾਂ ਨੂੰ ਕਿਵੇਂ ਕਤਾਰਬੱਧ ਕਰਦੇ ਹਾਂ ਅਤੇ ਬੈਚ-ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਾਂ।
ਸਮੱਸਿਆ: ਮੰਗ 'ਤੇ ਅਨੁਵਾਦ ਮਹਿੰਗਾ ਹੈ
ਮੰਗ 'ਤੇ ਸਮੱਗਰੀ ਦਾ ਅਨੁਵਾਦ ਕਰਨ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਹਨ:
-
ਹੌਲੀ: ਹਰ ਅਨੁਵਾਦ ਵਿੱਚ 1-2 ਸਕਿੰਟ ਲੱਗਦੇ ਹਨ
-
ਮਹਿੰਗਾ: ਪ੍ਰਤੀ ਬੇਨਤੀ API ਲਾਗਤ
-
ਬੇਲੋੜਾ: ਇੱਕੋ ਹੀ ਟੈਕਸਟ ਦਾ ਕਈ ਵਾਰ ਅਨੁਵਾਦ
-
ਰੁਕਾਵਟ: ਵਰਤੋਂਕਾਰ ਅਨੁਵਾਦ ਦੀ ਉਡੀਕ ਕਰਦਾ ਹੈ
ਸਾਨੂੰ ਇੱਕ ਬਿਹਤਰ ਤਰੀਕੇ ਦੀ ਲੋੜ ਹੈ।
ਹੱਲ: ਕਤਾਰ ਅਤੇ ਬੈਚ
ਕਤਾਰ: ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਇਕੱਠੀਆਂ ਕਰੋ
ਬੈਚ: ਇਕੱਠੇ ਕਈ ਅਨੁਵਾਦ ਪ੍ਰੋਸੈਸ ਕਰੋ
ਕੈਸ਼: ਨਤੀਜਿਆਂ ਨੂੰ ਮੁੜ ਵਰਤੋਂ ਲਈ ਸਟੋਰ ਕਰੋ
ਸ਼ੈਡਿਊਲ: ਕਤਾਰ ਨੂੰ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਪ੍ਰੋਸੈਸ ਕਰੋ (ਰੀਅਲ-ਟਾਈਮ ਨਹੀਂ)
ਕਤਾਰ ਬਣਤਰ
ਕਤਾਰ ਫਾਈਲ
ਟਿਕਾਣਾ: ਡਿਸਕ 'ਤੇ JSON ਫਾਈਲ
ਫਾਰਮੈਟ: ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਦੀ ਐਰੇ
ਖੇਤਰ:
-
text: ਅਨੁਵਾਦ ਕਰਨ ਲਈ ਅੰਗਰੇਜ਼ੀ ਟੈਕਸਟ -
target_lang: ਭਾਸ਼ਾ ਕੋਡ (hi, de, fr, ਆਦਿ) -
context: ਟੈਕਸਟ ਕਿੱਥੇ ਦਿਸਦਾ ਹੈ (ਉਤਪਾਦ, ਕੁਐਰੀ, ਲੇਖ) -
priority: ਉੱਚ/ਸਾਧਾਰਣ/ਘੱਟ
ਕਤਾਰ ਵਿੱਚ ਜੋੜਨਾ
ਜਦੋਂ ਅਨੁਵਾਦ ਗਾਇਬ ਹੋਵੇ:
queue_translation(text, target_lang, context="product")
ਡੀਡਪਲੀਕੇਸ਼ਨ: ਜਾਂਚ ਕਰੋ ਕਿ ਕੀ ਪਹਿਲਾਂ ਹੀ ਕਤਾਰਬੱਧ ਹੈ
ਵੈਲੀਡੇਸ਼ਨ: ਬੇਕਾਰ ਮੁੱਲਾਂ ਨੂੰ ਰੱਦ ਕਰੋ
ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ
ਸਕ੍ਰਿਪਟ
ਟਿਕਾਣਾ: scripts/web/process_translation_queue.py
ਸ਼ੈਡਿਊਲ: ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ cron ਦੁਆਰਾ ਚੱਲਦਾ ਹੈ
ਲਾਕ ਫਾਈਲ: ਇਕੋ ਸਮੇਂ ਚੱਲਣ ਤੋਂ ਰੋਕਦੀ ਹੈ
ਪ੍ਰੋਸੈਸ ਫਲੋ
1. ਕਤਾਰ ਲੋਡ ਕਰੋ: ਸਾਰੀਆਂ ਬਾਕੀ ਬੇਨਤੀਆਂ ਨੂੰ ਪੜ੍ਹੋ
2. ਭਾਸ਼ਾ ਦੁਆਰਾ ਸਮੂਹ: ਇੱਕੋ ਭਾਸ਼ਾ ਦੀਆਂ ਬੇਨਤੀਆਂ ਨੂੰ ਬੈਚ ਕਰੋ
3. ਡੀਡਪਲੀਕੇਟ: ਬੈਚ ਦੇ ਅੰਦਰ ਡੁਪਲੀਕੇਟ ਹਟਾਓ
4. ਕੈਸ਼ ਜਾਂਚੋ: ਪਹਿਲਾਂ ਹੀ ਅਨੁਵਾਦ ਕੀਤੇ ਟੈਕਸਟਾਂ ਨੂੰ ਛੱਡੋ
5. ਬੈਚ ਅਨੁਵਾਦ: DeepSeek API ਨੂੰ ਭੇਜੋ
6. ਨਤੀਜੇ ਪਾਰਸ ਕਰੋ: ਜਵਾਬ ਤੋਂ ਅਨੁਵਾਦ ਕੱਢੋ
7. ਕੈਸ਼ ਵਿੱਚ ਸੇਵ ਕਰੋ: ਫਰੇਜ਼ ਟੇਬਲਾਂ ਵਿੱਚ ਸਟੋਰ ਕਰੋ
8. ਕਤਾਰ ਸਾਫ਼ ਕਰੋ: ਪ੍ਰੋਸੈਸ ਕੀਤੀਆਂ ਬੇਨਤੀਆਂ ਹਟਾਓ
ਬੈਚ ਅਨੁਵਾਦ
API ਕਾਲ
ਮਾਡਲ: DeepSeek-V3 (Together.ai ਦੁਆਰਾ)
ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ: ਕੈਸ਼ਡ (ਭਾਸ਼ਾ ਵਿੱਚ ਸਾਰੇ ਬੈਚਾਂ ਲਈ ਇੱਕੋ ਜਿਹਾ)
ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ: ਵੇਰੀਏਬਲ (ਬੈਚ-ਖਾਸ)
ਫਾਰਮੈਟ: ਨੰਬਰਬੱਧ ਸੂਚੀ
ਉਦਾਹਰਣ:
Translate these 10 texts:
1. Mini PC
2. Thin Client
3. Compact Desktop
...
ਜਵਾਬ:
1. ਮਿਨੀ ਪੀਸੀ
2. ਥਿਨ ਕਲਾਇੰਟ
3. ਕੰਪੈਕਟ ਡੈਸਕਟਾਪ
...
ਪਾਰਸਿੰਗ
ਲਾਈਨ ਨੰਬਰ ਦੁਆਰਾ ਅਨੁਵਾਦ ਕੱਢੋ:
-
ਨੰਬਰ ਪ੍ਰੀਫਿਕਸ ਹਟਾਓ (
1.,2., ਆਦਿ) -
ਸਥਿਤੀ ਦੁਆਰਾ ਅਸਲ ਟੈਕਸਟਾਂ ਨਾਲ ਮਿਲਾਨ ਕਰੋ
-
ਗਿਣਤੀ ਮੇਲਣ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ
ਗਲਤੀ ਹੈਂਡਲਿੰਗ
API ਅਸਫਲਤਾ: ਬੈਕਅੱਪ API ਨਾਲ ਮੁੜ ਕੋਸ਼ਿਸ਼ ਕਰੋ
ਪਾਰਸ ਅਸਫਲਤਾ: ਅਸਲ ਟੈਕਸਟ ਵਾਪਸ ਕਰੋ
ਅੰਸ਼ਕ ਸਫਲਤਾ: ਸਫਲ ਅਨੁਵਾਦ ਸੇਵ ਕਰੋ, ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਮੁੜ ਕਤਾਰਬੱਧ ਕਰੋ
ਕੈਸ਼ਿੰਗ ਰਣਨੀਤੀ
ਫਰੇਜ਼ ਟੇਬਲ
ਟਿਕਾਣਾ: ਪ੍ਰਤੀ ਭਾਸ਼ਾ JSON ਫਾਈਲਾਂ
ਫਾਰਮੈਟ: {"English": "Translation"}
ਲੋਡਿੰਗ: ਸ਼ੁਰੂਆਤ 'ਤੇ ਇੱਕ ਵਾਰ ਲੋਡ ਕੀਤਾ ਗਿਆ
ਫਾਇਦਾ: ਤੇਜ਼ ਖੋਜ, ਕੋਈ API ਕਾਲ ਨਹੀਂ
ਕੈਸ਼ ਹਿੱਟ ਰੇਟ
ਪਹਿਲੀ ਰਨ: ਘੱਟ (ਸਭ ਕੁਝ ਨਵਾਂ)
ਬਾਅਦ ਦੀਆਂ ਰਨਾਂ: ਉੱਚ (ਬਹੁਤੇ ਟੈਕਸਟ ਕੈਸ਼ਡ)
ਫਾਇਦਾ: API ਲਾਗਤ ਘਟੀ
ਸੁਰੱਖਿਆ ਨਿਯਮ
ਅਨੁਵਾਦ ਦੇ ਦੌਰਾਨ, ਅਸੀਂ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹਾਂ:
ਬ੍ਰਾਂਡ ਨਾਮ: Thinvent®, Intel®, AMD®
HTML ਟੈਗ: <p>, <br>, <strong>
URLs: https://www.thinvent.in
SKUs: Treo-N100-8-256
ਨੰਬਰ: 8GB, 256GB, 4 cores
ਅਮਲ: ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਰੈਗੈਕਸ ਪੈਟਰਨ
ਭਾਸ਼ਾ ਖੋਜ
ਅਨੁਵਾਦ ਤੋਂ ਪਹਿਲਾਂ, ਜਾਂਚ ਕਰੋ ਕਿ ਕੀ ਪਹਿਲਾਂ ਹੀ ਅਨੁਵਾਦ ਹੋ ਚੁੱਕਾ ਹੈ:
ਵਿਧੀ: ਅੱਖਰ ਸੈਟ ਵਿਸ਼ਲੇਸ਼ਣ
ਹਿੰਦੀ: ਦੇਵਨਾਗਰੀ ਲਿਪੀ
ਚੀਨੀ: CJK ਅੱਖਰ
ਅਰਬੀ: ਅਰਬੀ ਲਿਪੀ
ਫਾਇਦਾ: ਗੈਰ-ਜ਼ਰੂਰੀ ਅਨੁਵਾਦ ਛੱਡੋ
ਤਰਜੀਹ ਹੈਂਡਲਿੰਗ
ਉੱਚ ਤਰਜੀਹ: ਉਤਪਾਦ ਨਾਮ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਪਹਿਲਾਂ ਪ੍ਰੋਸੈਸ ਕਰੋ)
ਸਾਧਾਰਣ ਤਰਜੀਹ: ਵਰਣਨ, ਲੇਖ (ਦੂਜਾ ਪ੍ਰੋਸੈਸ ਕਰੋ)
ਘੱਟ ਤਰਜੀਹ: ਪੁਰਾਣੀ ਸਮੱਗਰੀ, ਘੱਟ ਦੇਖੀ ਗਈ (ਆਖਰੀ ਪ੍ਰੋਸੈਸ ਕਰੋ)
ਫਾਇਦਾ: ਮਹੱਤਵਪੂਰਨ ਸਮੱਗਰੀ ਪਹਿਲਾਂ ਅਨੁਵਾਦ ਹੋਈ
ਸ਼ੈਡਿਊਲਿੰਗ
Cron ਜੌਬ
ਆਵਿਰਤੀ: ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ
ਕਮਾਂਡ: python3 scripts/web/process_translation_queue.py
ਲਾਕ ਫਾਈਲ: /tmp/process_translation_queue.lock
ਫਾਇਦਾ: ਆਟੋਮੈਟਿਕ ਪ੍ਰੋਸੈਸਿੰਗ, ਕੋਈ ਹੱਥੀਂ ਦਖਲਅੰਦਾਜ਼ੀ ਨਹੀਂ
ਹਫਤਾਵਾਰੀ ਕੰਮ
ਲੇਖ: ਨਵੇਂ ਲੇਖ ਹਫਤਾਵਾਰੀ ਅਨੁਵਾਦ ਕਰੋ
ਬੇਬਲ ਸਟ੍ਰਿੰਗਾਂ: ਹਫਤਾਵਾਰੀ ਟੈਂਪਲੇਟ ਅਨੁਵਾਦ ਅੱਪਡੇਟ ਕਰੋ
ਸਕ੍ਰਿਪਟ: scripts/web/translate_articles_weekly.sh
ਨਿਗਰਾਨੀ
ਕਤਾਰ ਦਾ ਆਕਾਰ
ਬਾਕੀ ਬੇਨਤੀਆਂ ਟਰੈਕ ਕਰੋ:
-
ਕੁੱਲ ਬੇਨਤੀਆਂ
-
ਪ੍ਰਤੀ ਭਾਸ਼ਾ ਬੇਨਤੀਆਂ
-
ਸਭ ਤੋਂ ਪੁਰਾਣੀ ਬੇਨਤੀ ਉਮਰ
ਸੁਚੇਤਨਾ: ਜੇ ਕਤਾਰ ਬਹੁਤ ਵੱਡੀ ਹੋ ਜਾਵੇ
ਅਨੁਵਾਦ ਅੰਕੜੇ
ਪ੍ਰੋਸੈਸਿੰਗ ਟਰੈਕ ਕਰੋ:
-
ਪ੍ਰਤੀ ਬੈਚ ਅਨੁਵਾਦ
-
API ਸਫਲਤਾ ਦਰ
-
ਕੈਸ਼ ਹਿੱਟ ਰੇਟ
-
ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਾਂ
ਲਾਗਤ ਟਰੈਕਿੰਗ
API ਵਰਤੋਂ ਨਿਗਰਾਨੀ:
-
ਪ੍ਰਤੀ ਦਿਨ ਬੇਨਤੀਆਂ
-
ਪ੍ਰਤੀ ਬੇਨਤੀ ਟੋਕਨ
-
ਪ੍ਰਤੀ ਭਾਸ਼ਾ ਲਾਗਤ
ਹਵਾਲੇ
ਸੰਬੰਧਿਤ ਲੇਖ
-
ਅਨੁਵਾਦ ਸਿਸਟਮ - ਤਿੰਨ-ਤਕਨਾਲੋਜੀ ਹਾਈਬ੍ਰਿਡ
-
ਸਮੱਗਰੀ AI ਜਨਰੇਸ਼ਨ - DeepSeek ਇੰਟੀਗ੍ਰੇਸ਼ਨ
-
ਭਾਸ਼ਾ ਖੋਜ - ਵਰਤੋਂਕਾਰ ਭਾਸ਼ਾ ਤਰਜੀਹ
ਸਾਰਾਂਸ਼
ਅਨੁਵਾਦ ਕਤਾਰ ਕੁਸ਼ਲ ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ:
ਕਤਾਰ:
-
✅ ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਇਕੱਠੀਆਂ ਕਰੋ
-
✅ ਬੈਚ ਦੇ ਅੰਦਰ ਡੀਡਪਲੀਕੇਟ
-
✅ ਤਰਜੀਹ ਹੈਂਡਲਿੰਗ
-
✅ ਵੈਲੀਡੇਸ਼ਨ ਅਤੇ ਫਿਲਟਰਿੰਗ
ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ:
-
✅ ਭਾਸ਼ਾ ਦੁਆਰਾ ਸਮੂਹ
-
✅ DeepSeek API ਨੂੰ ਭੇਜੋ
-
✅ ਨੰਬਰਬੱਧ ਜਵਾਬ ਪਾਰਸ ਕਰੋ
-
✅ ਫਰੇਜ਼ ਟੇਬਲਾਂ ਵਿੱਚ ਸੇਵ ਕਰੋ
ਕੈਸ਼ਿੰਗ:
-
✅ ਅਨੁਵਾਦ ਤੋਂ ਪਹਿਲਾਂ ਕੈਸ਼ ਜਾਂਚੋ
-
✅ ਉੱਚ ਕੈਸ਼ ਹਿੱਟ ਰੇਟ
-
✅ ਘਟੀ API ਲਾਗਤ
ਸ਼ੈਡਿਊਲਿੰਗ:
-
✅ ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ cron ਦੁਆਰਾ
-
✅ ਲਾਕ ਫਾਈਲ ਇਕੋ ਸਮੇਂ ਚੱਲਣ ਤੋਂ ਰੋਕਦੀ ਹੈ
-
✅ ਹਫਤਾਵਾਰੀ ਲੇਖ ਅਨੁਵਾਦ
ਸੁਰੱਖਿਆ:
-
✅ ਬ੍ਰਾਂਡ ਨਾਮ
-
✅ HTML ਟੈਗ
-
✅ URLs ਅਤੇ SKUs
ਇਹ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਬੈਚਿੰਗ ਅਤੇ ਕੈਸ਼ਿੰਗ ਦੁਆਰਾ API ਲਾਗਤਾਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਅਨੁਵਾਦ ਗੁਣਵੱ