ਅਨੁਵਾਦ ਕਤਾਰ: ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ ਸਿਸਟਮ

ਇਹ ਲੇਖ ਦੱਸਦਾ ਹੈ ਕਿ ਅਸੀਂ AI API ਦੀ ਵਰਤੋਂ ਨੂੰ ਆਪਟੀਮਾਈਜ਼ ਕਰਨ ਲਈ ਅਨੁਵਾਦਾਂ ਨੂੰ ਕਿਵੇਂ ਕਤਾਰਬੱਧ ਕਰਦੇ ਹਾਂ ਅਤੇ ਬੈਚ-ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਾਂ।

ਸਮੱਸਿਆ: ਮੰਗ 'ਤੇ ਅਨੁਵਾਦ ਮਹਿੰਗਾ ਹੈ

ਮੰਗ 'ਤੇ ਸਮੱਗਰੀ ਦਾ ਅਨੁਵਾਦ ਕਰਨ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਹਨ:

  • ਹੌਲੀ: ਹਰ ਅਨੁਵਾਦ ਵਿੱਚ 1-2 ਸਕਿੰਟ ਲੱਗਦੇ ਹਨ

  • ਮਹਿੰਗਾ: ਪ੍ਰਤੀ ਬੇਨਤੀ API ਲਾਗਤ

  • ਬੇਲੋੜਾ: ਇੱਕੋ ਹੀ ਟੈਕਸਟ ਦਾ ਕਈ ਵਾਰ ਅਨੁਵਾਦ

  • ਰੁਕਾਵਟ: ਵਰਤੋਂਕਾਰ ਅਨੁਵਾਦ ਦੀ ਉਡੀਕ ਕਰਦਾ ਹੈ

ਸਾਨੂੰ ਇੱਕ ਬਿਹਤਰ ਤਰੀਕੇ ਦੀ ਲੋੜ ਹੈ।

ਹੱਲ: ਕਤਾਰ ਅਤੇ ਬੈਚ

ਕਤਾਰ: ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਇਕੱਠੀਆਂ ਕਰੋ

ਬੈਚ: ਇਕੱਠੇ ਕਈ ਅਨੁਵਾਦ ਪ੍ਰੋਸੈਸ ਕਰੋ

ਕੈਸ਼: ਨਤੀਜਿਆਂ ਨੂੰ ਮੁੜ ਵਰਤੋਂ ਲਈ ਸਟੋਰ ਕਰੋ

ਸ਼ੈਡਿਊਲ: ਕਤਾਰ ਨੂੰ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਪ੍ਰੋਸੈਸ ਕਰੋ (ਰੀਅਲ-ਟਾਈਮ ਨਹੀਂ)

ਕਤਾਰ ਬਣਤਰ

ਕਤਾਰ ਫਾਈਲ

ਟਿਕਾਣਾ: ਡਿਸਕ 'ਤੇ JSON ਫਾਈਲ

ਫਾਰਮੈਟ: ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਦੀ ਐਰੇ

ਖੇਤਰ:

  • text: ਅਨੁਵਾਦ ਕਰਨ ਲਈ ਅੰਗਰੇਜ਼ੀ ਟੈਕਸਟ

  • target_lang: ਭਾਸ਼ਾ ਕੋਡ (hi, de, fr, ਆਦਿ)

  • context: ਟੈਕਸਟ ਕਿੱਥੇ ਦਿਸਦਾ ਹੈ (ਉਤਪਾਦ, ਕੁਐਰੀ, ਲੇਖ)

  • priority: ਉੱਚ/ਸਾਧਾਰਣ/ਘੱਟ

ਕਤਾਰ ਵਿੱਚ ਜੋੜਨਾ

ਜਦੋਂ ਅਨੁਵਾਦ ਗਾਇਬ ਹੋਵੇ:

queue_translation(text, target_lang, context="product")

ਡੀਡਪਲੀਕੇਸ਼ਨ: ਜਾਂਚ ਕਰੋ ਕਿ ਕੀ ਪਹਿਲਾਂ ਹੀ ਕਤਾਰਬੱਧ ਹੈ

ਵੈਲੀਡੇਸ਼ਨ: ਬੇਕਾਰ ਮੁੱਲਾਂ ਨੂੰ ਰੱਦ ਕਰੋ

ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ

ਸਕ੍ਰਿਪਟ

ਟਿਕਾਣਾ: scripts/web/process_translation_queue.py

ਸ਼ੈਡਿਊਲ: ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ cron ਦੁਆਰਾ ਚੱਲਦਾ ਹੈ

ਲਾਕ ਫਾਈਲ: ਇਕੋ ਸਮੇਂ ਚੱਲਣ ਤੋਂ ਰੋਕਦੀ ਹੈ

ਪ੍ਰੋਸੈਸ ਫਲੋ

1. ਕਤਾਰ ਲੋਡ ਕਰੋ: ਸਾਰੀਆਂ ਬਾਕੀ ਬੇਨਤੀਆਂ ਨੂੰ ਪੜ੍ਹੋ

2. ਭਾਸ਼ਾ ਦੁਆਰਾ ਸਮੂਹ: ਇੱਕੋ ਭਾਸ਼ਾ ਦੀਆਂ ਬੇਨਤੀਆਂ ਨੂੰ ਬੈਚ ਕਰੋ

3. ਡੀਡਪਲੀਕੇਟ: ਬੈਚ ਦੇ ਅੰਦਰ ਡੁਪਲੀਕੇਟ ਹਟਾਓ

4. ਕੈਸ਼ ਜਾਂਚੋ: ਪਹਿਲਾਂ ਹੀ ਅਨੁਵਾਦ ਕੀਤੇ ਟੈਕਸਟਾਂ ਨੂੰ ਛੱਡੋ

5. ਬੈਚ ਅਨੁਵਾਦ: DeepSeek API ਨੂੰ ਭੇਜੋ

6. ਨਤੀਜੇ ਪਾਰਸ ਕਰੋ: ਜਵਾਬ ਤੋਂ ਅਨੁਵਾਦ ਕੱਢੋ

7. ਕੈਸ਼ ਵਿੱਚ ਸੇਵ ਕਰੋ: ਫਰੇਜ਼ ਟੇਬਲਾਂ ਵਿੱਚ ਸਟੋਰ ਕਰੋ

8. ਕਤਾਰ ਸਾਫ਼ ਕਰੋ: ਪ੍ਰੋਸੈਸ ਕੀਤੀਆਂ ਬੇਨਤੀਆਂ ਹਟਾਓ

ਬੈਚ ਅਨੁਵਾਦ

API ਕਾਲ

ਮਾਡਲ: DeepSeek-V3 (Together.ai ਦੁਆਰਾ)

ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ: ਕੈਸ਼ਡ (ਭਾਸ਼ਾ ਵਿੱਚ ਸਾਰੇ ਬੈਚਾਂ ਲਈ ਇੱਕੋ ਜਿਹਾ)

ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ: ਵੇਰੀਏਬਲ (ਬੈਚ-ਖਾਸ)

ਫਾਰਮੈਟ: ਨੰਬਰਬੱਧ ਸੂਚੀ

ਉਦਾਹਰਣ:

Translate these 10 texts:
1. Mini PC
2. Thin Client
3. Compact Desktop
...

ਜਵਾਬ:

1. ਮਿਨੀ ਪੀਸੀ
2. ਥਿਨ ਕਲਾਇੰਟ
3. ਕੰਪੈਕਟ ਡੈਸਕਟਾਪ
...

ਪਾਰਸਿੰਗ

ਲਾਈਨ ਨੰਬਰ ਦੁਆਰਾ ਅਨੁਵਾਦ ਕੱਢੋ:

  • ਨੰਬਰ ਪ੍ਰੀਫਿਕਸ ਹਟਾਓ (1., 2., ਆਦਿ)

  • ਸਥਿਤੀ ਦੁਆਰਾ ਅਸਲ ਟੈਕਸਟਾਂ ਨਾਲ ਮਿਲਾਨ ਕਰੋ

  • ਗਿਣਤੀ ਮੇਲਣ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ

ਗਲਤੀ ਹੈਂਡਲਿੰਗ

API ਅਸਫਲਤਾ: ਬੈਕਅੱਪ API ਨਾਲ ਮੁੜ ਕੋਸ਼ਿਸ਼ ਕਰੋ

ਪਾਰਸ ਅਸਫਲਤਾ: ਅਸਲ ਟੈਕਸਟ ਵਾਪਸ ਕਰੋ

ਅੰਸ਼ਕ ਸਫਲਤਾ: ਸਫਲ ਅਨੁਵਾਦ ਸੇਵ ਕਰੋ, ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਮੁੜ ਕਤਾਰਬੱਧ ਕਰੋ

ਕੈਸ਼ਿੰਗ ਰਣਨੀਤੀ

ਫਰੇਜ਼ ਟੇਬਲ

ਟਿਕਾਣਾ: ਪ੍ਰਤੀ ਭਾਸ਼ਾ JSON ਫਾਈਲਾਂ

ਫਾਰਮੈਟ: {"English": "Translation"}

ਲੋਡਿੰਗ: ਸ਼ੁਰੂਆਤ 'ਤੇ ਇੱਕ ਵਾਰ ਲੋਡ ਕੀਤਾ ਗਿਆ

ਫਾਇਦਾ: ਤੇਜ਼ ਖੋਜ, ਕੋਈ API ਕਾਲ ਨਹੀਂ

ਕੈਸ਼ ਹਿੱਟ ਰੇਟ

ਪਹਿਲੀ ਰਨ: ਘੱਟ (ਸਭ ਕੁਝ ਨਵਾਂ)

ਬਾਅਦ ਦੀਆਂ ਰਨਾਂ: ਉੱਚ (ਬਹੁਤੇ ਟੈਕਸਟ ਕੈਸ਼ਡ)

ਫਾਇਦਾ: API ਲਾਗਤ ਘਟੀ

ਸੁਰੱਖਿਆ ਨਿਯਮ

ਅਨੁਵਾਦ ਦੇ ਦੌਰਾਨ, ਅਸੀਂ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹਾਂ:

ਬ੍ਰਾਂਡ ਨਾਮ: Thinvent®, Intel®, AMD®

HTML ਟੈਗ: <p>, <br>, <strong>

URLs: https://www.thinvent.in

SKUs: Treo-N100-8-256

ਨੰਬਰ: 8GB, 256GB, 4 cores

ਅਮਲ: ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਰੈਗੈਕਸ ਪੈਟਰਨ

ਭਾਸ਼ਾ ਖੋਜ

ਅਨੁਵਾਦ ਤੋਂ ਪਹਿਲਾਂ, ਜਾਂਚ ਕਰੋ ਕਿ ਕੀ ਪਹਿਲਾਂ ਹੀ ਅਨੁਵਾਦ ਹੋ ਚੁੱਕਾ ਹੈ:

ਵਿਧੀ: ਅੱਖਰ ਸੈਟ ਵਿਸ਼ਲੇਸ਼ਣ

ਹਿੰਦੀ: ਦੇਵਨਾਗਰੀ ਲਿਪੀ

ਚੀਨੀ: CJK ਅੱਖਰ

ਅਰਬੀ: ਅਰਬੀ ਲਿਪੀ

ਫਾਇਦਾ: ਗੈਰ-ਜ਼ਰੂਰੀ ਅਨੁਵਾਦ ਛੱਡੋ

ਤਰਜੀਹ ਹੈਂਡਲਿੰਗ

ਉੱਚ ਤਰਜੀਹ: ਉਤਪਾਦ ਨਾਮ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਪਹਿਲਾਂ ਪ੍ਰੋਸੈਸ ਕਰੋ)

ਸਾਧਾਰਣ ਤਰਜੀਹ: ਵਰਣਨ, ਲੇਖ (ਦੂਜਾ ਪ੍ਰੋਸੈਸ ਕਰੋ)

ਘੱਟ ਤਰਜੀਹ: ਪੁਰਾਣੀ ਸਮੱਗਰੀ, ਘੱਟ ਦੇਖੀ ਗਈ (ਆਖਰੀ ਪ੍ਰੋਸੈਸ ਕਰੋ)

ਫਾਇਦਾ: ਮਹੱਤਵਪੂਰਨ ਸਮੱਗਰੀ ਪਹਿਲਾਂ ਅਨੁਵਾਦ ਹੋਈ

ਸ਼ੈਡਿਊਲਿੰਗ

Cron ਜੌਬ

ਆਵਿਰਤੀ: ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ

ਕਮਾਂਡ: python3 scripts/web/process_translation_queue.py

ਲਾਕ ਫਾਈਲ: /tmp/process_translation_queue.lock

ਫਾਇਦਾ: ਆਟੋਮੈਟਿਕ ਪ੍ਰੋਸੈਸਿੰਗ, ਕੋਈ ਹੱਥੀਂ ਦਖਲਅੰਦਾਜ਼ੀ ਨਹੀਂ

ਹਫਤਾਵਾਰੀ ਕੰਮ

ਲੇਖ: ਨਵੇਂ ਲੇਖ ਹਫਤਾਵਾਰੀ ਅਨੁਵਾਦ ਕਰੋ

ਬੇਬਲ ਸਟ੍ਰਿੰਗਾਂ: ਹਫਤਾਵਾਰੀ ਟੈਂਪਲੇਟ ਅਨੁਵਾਦ ਅੱਪਡੇਟ ਕਰੋ

ਸਕ੍ਰਿਪਟ: scripts/web/translate_articles_weekly.sh

ਨਿਗਰਾਨੀ

ਕਤਾਰ ਦਾ ਆਕਾਰ

ਬਾਕੀ ਬੇਨਤੀਆਂ ਟਰੈਕ ਕਰੋ:

  • ਕੁੱਲ ਬੇਨਤੀਆਂ

  • ਪ੍ਰਤੀ ਭਾਸ਼ਾ ਬੇਨਤੀਆਂ

  • ਸਭ ਤੋਂ ਪੁਰਾਣੀ ਬੇਨਤੀ ਉਮਰ

ਸੁਚੇਤਨਾ: ਜੇ ਕਤਾਰ ਬਹੁਤ ਵੱਡੀ ਹੋ ਜਾਵੇ

ਅਨੁਵਾਦ ਅੰਕੜੇ

ਪ੍ਰੋਸੈਸਿੰਗ ਟਰੈਕ ਕਰੋ:

  • ਪ੍ਰਤੀ ਬੈਚ ਅਨੁਵਾਦ

  • API ਸਫਲਤਾ ਦਰ

  • ਕੈਸ਼ ਹਿੱਟ ਰੇਟ

  • ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਾਂ

ਲਾਗਤ ਟਰੈਕਿੰਗ

API ਵਰਤੋਂ ਨਿਗਰਾਨੀ:

  • ਪ੍ਰਤੀ ਦਿਨ ਬੇਨਤੀਆਂ

  • ਪ੍ਰਤੀ ਬੇਨਤੀ ਟੋਕਨ

  • ਪ੍ਰਤੀ ਭਾਸ਼ਾ ਲਾਗਤ

ਹਵਾਲੇ

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਾਰਾਂਸ਼

ਅਨੁਵਾਦ ਕਤਾਰ ਕੁਸ਼ਲ ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ:

ਕਤਾਰ:

  • ✅ ਅਨੁਵਾਦ ਬੇਨਤੀਆਂ ਇਕੱਠੀਆਂ ਕਰੋ

  • ✅ ਬੈਚ ਦੇ ਅੰਦਰ ਡੀਡਪਲੀਕੇਟ

  • ✅ ਤਰਜੀਹ ਹੈਂਡਲਿੰਗ

  • ✅ ਵੈਲੀਡੇਸ਼ਨ ਅਤੇ ਫਿਲਟਰਿੰਗ

ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ:

  • ✅ ਭਾਸ਼ਾ ਦੁਆਰਾ ਸਮੂਹ

  • ✅ DeepSeek API ਨੂੰ ਭੇਜੋ

  • ✅ ਨੰਬਰਬੱਧ ਜਵਾਬ ਪਾਰਸ ਕਰੋ

  • ✅ ਫਰੇਜ਼ ਟੇਬਲਾਂ ਵਿੱਚ ਸੇਵ ਕਰੋ

ਕੈਸ਼ਿੰਗ:

  • ✅ ਅਨੁਵਾਦ ਤੋਂ ਪਹਿਲਾਂ ਕੈਸ਼ ਜਾਂਚੋ

  • ✅ ਉੱਚ ਕੈਸ਼ ਹਿੱਟ ਰੇਟ

  • ✅ ਘਟੀ API ਲਾਗਤ

ਸ਼ੈਡਿਊਲਿੰਗ:

  • ✅ ਹਰ 6 ਘੰਟਿਆਂ ਬਾਅਦ cron ਦੁਆਰਾ

  • ✅ ਲਾਕ ਫਾਈਲ ਇਕੋ ਸਮੇਂ ਚੱਲਣ ਤੋਂ ਰੋਕਦੀ ਹੈ

  • ✅ ਹਫਤਾਵਾਰੀ ਲੇਖ ਅਨੁਵਾਦ

ਸੁਰੱਖਿਆ:

  • ✅ ਬ੍ਰਾਂਡ ਨਾਮ

  • ✅ HTML ਟੈਗ

  • ✅ URLs ਅਤੇ SKUs

ਇਹ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਬੈਚਿੰਗ ਅਤੇ ਕੈਸ਼ਿੰਗ ਦੁਆਰਾ API ਲਾਗਤਾਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਅਨੁਵਾਦ ਗੁਣਵੱ