ما هي أفضل واجهات برمجة التطبيقات للترجمة الآلية؟

دراسة شاملة لأفضل واجهات برمجة تطبيقات الترجمة الآلية—Google، Amazon، DeepL وMicrosoft. اكتشف الأفضل أداءً.
جدول المحتويات

واجهات برمجة تطبيقات الترجمة موجودة في كل مكان. لكن ليس جميعهم يقدمون نفس المستوى من الأداء. 

أظهرت دراسة حديثة أنه لا يوجد فائز واحد لجميع اللغات، وأن المحركات التجارية تتمتع بأداء متفوق مقارنة بالمحركات مفتوحة المصدر.

اختبرت هذه الدراسة المعيارية أفضل اللاعبين - Google و Amazon و Microsoft و DeepL - باستخدام أكثر من 200,000 شريحة مترجمة بشريًا عبر سبع لغات، بما في ذلك البرتغالية والصينية واليابانية. 

جاءت DeepL و Amazon في المقدمة، حيث تفوق DeepL في اللغات الأوروبية وتصدر أمازون اللغات الآسيوية.

في حين أن معظم المحركات قدمت استجابات سريعة، إلا أن DeepL تخلفت عن الركب في سيناريوهات الترجمة في الوقت الفعلي - بمتوسط تأخير يبلغ حوالي ثانية واحدة لكل جملة. هذه فجوة كبيرة للتطبيقات التي تعتمد على النتائج الفورية.

نحسب درجة BLEU لترجماتهم بالمقارنة مع الترجمات البشرية، مع تحليل جوانب مختلفة مثل اللغة المستهدفة وحجم الجملة في اللغة المصدر. 

بالإضافة إلى ذلك، نقيس وقت استجابة تلك واجهات برمجة التطبيقات للترجمة، حيث أن هذه ميزة مهمة للتطبيقات التي تتطلب ترجمات في الوقت الفعلي، مثل تطبيقات السفر ووكالات الترجمة.

لذلك، عندما يتعلق الأمر باختيار أفضل واجهة برمجة تطبيقات للترجمة، فالأمر لا يتعلق فقط بمن يقدم الدعم لأكبر عدد من اللغات. يتعلق الأمر بتحقيق التوازن الصحيح بين الجودة والسرعة والسياق.

هنا ملخص لأهم نتائجنا الرئيسية

  • قدمت DeepL وAmazon Translate أعلى مستوى من الجودة في الترجمة بشكل عام، حيث تفوقت DeepL في اللغات الأوروبية وتفوقت Amazon في اللغات الآسيوية مثل اليابانية والصينية.
  • لا يوجد محرك واحد يناسب الجميع: يختلف الأداء حسب زوج اللغة وطول الجملة وسياق الترجمة.
  • تميل الجمل الأطول إلى إنتاج درجات أفضل في BLEU عبر جميع المحركات - وهو نمط ثابت لوحظ في كل لغة تم اختبارها.
  • كان لدى المترجم من Microsoft أسرع وقت استجابة في الترجمات ذات المقطع الواحد (الوسيط: 0.09 ثانية) ، بينما كان DeepL هو الأبطأ (بالقرب من ثانية واحدة لكل مقطع).
  • في وضع الترجمة بالجملة، Google وMicrosoft قدما سرعات أقل من الثانية لكل مقطع، بينما Amazon لم يكن أداؤه جيدًا بسبب عدم توفره على دعم حقيقي للدفعات.
  • أظهرت درجات BLEU اختلافات ذات دلالة إحصائية بين المحركات، أكدتها اختبارات فريدمان ونيميني - مما يثبت صحة النتائج بما يتجاوز الأدلة القصصية.
  • قابلية التوسع ليست متساوية: يزداد وقت استجابة DeepL بشكل أكثر حدة مع نمو حجم الجزء، مما قد يكون عاملًا مقيدًا في حالات الاستخدام ذات الحجم الكبير.
  • كان أداء جميع المحركات جيدًا بما يكفي للتطبيقات في الوقت الفعلي، باستثناء DeepL في وضع المكالمة الفردية وAmazon في السيناريوهات المجمعة.
  • كان لدى البرتغالية البرازيلية أكبر عدد من الشرائح التي تم تقييمها، مما يجعلها واحدة من أقوى أزواج اللغات في الدراسة.
  • تنوع البيانات مهم: استخدمت مجموعة البيانات مجالات مغطاة مثل الصحة والقانون وتكنولوجيا المعلومات، مما يحاكي متطلبات الترجمة في العالم الحقيقي بموثوقية عالية.

ما هي واجهات برمجة التطبيقات للترجمة الآلية؟

خدمات الترجمة الآلية عبر واجهات برمجة التطبيقات هي خدمات سحابية تتيح للمطورون والمنصات ترجمة النصوص تلقائيًا بين اللغات باستخدام نماذج التعلم الآلي.

بدلاً من بناء محركات الترجمة الخاصة بهم من الصفر، يمكن للشركات دمج هذه الواجهات البرمجية في مواقع الويب، التطبيقات، أو الأنظمة الداخلية لتوفير المحتوى السريع، القابل للتوسع، والمتعدد اللغات.

بعض من أشهر واجهات برمجة التطبيقات الترجمة الآلية تشمل:

  • واجهة برمجة تطبيقات الترجمة من Google - تغطي أكثر من 100 لغة وتتكامل بسهولة مع Google Cloud.
  • Amazon Translate - مصممة للترجمة السريعة على نطاق واسع، مع أداء قوي في اللغات الآسيوية.
  • المترجم من Microsoft – خيار مناسب للميزانية يدعم أكثر من 90 لغة، مثالي للتطبيقات في الوقت الفعلي.
  • DeepL API – معروف بترجماته ذات الجودة العالية في اللغات الأوروبية، خاصة عندما يتعلق الأمر بالطلاقة والدقة.

تُستخدم هذه واجهات برمجة التطبيقات بشكل واسع في المجالات مثل التجارة الإلكترونية، السفر، القانون، الرعاية الصحية، دعم العملاء، والتوطين، حيث يمكن للترجمة الدقيقة والفورية تحسين تجربة المستخدم وكفاءة العمليات بشكل كبير.

لكن ليست كل واجهات برمجة التطبيقات يتم إنشاؤها بشكل متساوٍ — واختيار الصحيح منها يعتمد على احتياجاتك الخاصة: أزواج اللغات، السرعة، التكلفة، وبالطبع، جودة الترجمة.

محركات الترجمة الآلية

لهذا التقييم، اخترنا أربعة محركات ترجمة آلية تجارية تدعم جميع أزواج اللغات في مجموعتنا البيانية. نصفها أدناه مع قيم التكلفة المرتبطة بها اعتبارًا من يناير 2022.

  • ترجمة أمازون: تم تطويره بواسطة Amazon، ويوفر الدعم للترجمة الآلية بأكثر من 70 لغة. تم دمج واجهة برمجة تطبيقات Python الخاصة بها بالكامل مع خدمات AWS، بتكلفة 15 دولارًا أمريكيًا لكل مليون حرف.
  • ديبل: إنها شركة تركز على الترجمة الآلية. تدعم واجهته البرمجية 26 لغة، بتكلفة 25 دولار أمريكي لكل مليون حرف. استخدمنا واجهة برمجة تطبيقات Python الخاصة بها والتي تتيح الترجمات من وإلى الإنجليزية.
  • ترجمة جوجل: يوفر الترجمة الآلية والدعم لأكثر من 100 لغة، كونه المحرك الذي يتمتع بأوسع نطاق فيما يتعلق باللغات المدعومة. كما يوفر واجهة برمجة تطبيقات Python متكاملة مع جميع خدمات Google Cloud. تسعير الترجمة هو 20 دولار أمريكي لكل مليون حرف.
  • المترجم من Microsoft: إنها خدمة الترجمة الآلية المقدمة من Microsoft بتكلفة 10 دولارات أمريكية لكل مليون حرف، وهي الأقل في الأسعار بين جميع محركات الترجمة الآلية التي تم تقييمها. يدعم هذا المحرك ما يقرب من 90 لغة.

جميع محركات الترجمة الآلية المختارة قادرة على ترجمة مقطع واحد من خلال واجهات برمجة التطبيقات الخاصة بها، وباستثناء Amazon Translate، يمكنها أيضًا الاستجابة لطلب مجمع، عندما يتم إرسال قائمة من المقاطع وإعادتها دفعة واحدة.

لمعالجة القيود الكبيرة في Amazon Translate، قمنا بإجراء تحسين بسيط في الترميز في المكالمة الفردية من أجل القضاء على الحاجة إلى إنشاء اتصال بواجهة برمجة التطبيقات في كل ترجمة، وهو ليس قريبًا من الترجمة بالجملة ولكنه ساعد في تقليل الفجوة بين هذا والمحركات الأخرى التي تدعم الترجمة بالجملة.

على الرغم من أن جميع محركات الترجمة الآلية المذكورة كانت مناسبة لضبط نماذجها باستخدام بيانات موازية أو مسرد المصطلحات للمصطلحات المحددة، قررنا ترك هذه الخيارات جانباً لهذا التقييم.

نحاول أيضًا تقييم محركات الترجمة الآلية الأخرى (مثل Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba)، لكن لم نتمكن من استخدامها لأحد الأسباب التالية: 

  • عدم توفر API
  • نقص في الوثائق،
  • عدم وجود الدعم لجميع اللغات المستهدفة.

Metrics

نحن نقيم الجودة الخاصة بترجمة المحركات باستخدام درجة BLEU (Papineni et al., 2002). استخدمنا اختبار فريدمان (فريدمان، 1940) لمقارنة درجات المحركات المختلفة، واختبار نيمينيي اللاحق (نيمينيي، 1963) للتحقق من الفروق الإحصائية ذات الدلالة بين محركات الترجمة الآلية الفردية.لحساب وقت استجابة واجهات برمجة التطبيقات، اخترنا عينة من 100 مقطع من مجموعة البيانات الخاصة بنا، مع مراعاة توزيع فترات أحجام المقاطع (الشكل 2)، وقمنا بترجمتها في كل محرك من الإنجليزية إلى البرتغالية.

قمنا بضرب المحركات بالجمل المحددة مرة واحدة يوميًا لمدة أسبوع واحد لتقييم طرق واجهات برمجة التطبيقات: مفردة وجماعية. لم نستخدم مجموعة البيانات بأكملها وقمنا بالترجمة فقط إلى لغة مستهدفة واحدة لتقييم وقت الاستجابة، لأن ضرب المحركات لمدة أسبوع واحد مع 200 ألف مقطع بسبع لغات سيكون مكلفًا من الناحية المالية.

النتائج التجريبية

في هذا القسم، نقدم نتائج تحقيقنا حول أداء محركات الترجمة الآلية الموضحة في القسم 2.

تقييم الجودة

يقدم الجدول أدناه متوسط درجة BLEU للمحركات الأربعة على كل لغة مستهدفة. بالنسبة لجميع اللغات، كانت القيم الاحتمالية لاختبار فريدمان أصغر من مستوى الدلالة (0.05)، مما يعني أن هناك اختلافات ذات دلالة إحصائية في درجات المحركات. بالإضافة إلى ذلك، كان أداء المحركات التي حصلت على أفضل الدرجات لكل لغة مختلفًا إحصائيًا عن المحركات الأخرى، وفقًا لاختبار Nemenyi اللاحق مع قيم p أقل من مستوى الدلالة 0.05. حققت Amazon و DeepL أفضل النتائج الإجمالية بأعلى الدرجات في 4 لغات مستهدفة. تعادلت Google مع DeepL في اللغة الإسبانية ومع Amazon في اللغة الصينية، في حين أن محرك الترجمة من Microsoft لم يتفوق على أي محرك ترجمة آلي في أي لغة.

يعرض الشكل التالي توزيع درجات BLEU لأحجام المقاطع المختلفة في كل لغة مستهدفة. اتجاه شائع في هذه الرسوم البيانية هو أنه كلما طالت الجملة، كانت درجة BLEU أفضل.

على سبيل المثال، كان متوسط درجات جميع محركات MT للغة الألمانية كلغة مستهدفة حوالي 0.6 للمقاطع ذات الحجم بين 1 و 10 وقريبًا من 0.7 للمقاطع التي يزيد حجمها عن 40 كلمة.

اليابانية هي الاستثناء الوحيد: لم يؤثر حجم الجزء على الجودة الترجمة لأمازون وDeepL، لكنه أثر على الجودة لمايكروسوفت (متوسط درجة BLUE هو 0.61 للفترة من 1-10 و0.58 للفترة من 40-) وجوجل (متوسط درجة BLUE هو 0.62 للفترة من 1-10 و0.6 للفترة من 40-).

تقييم وقت الترجمة

يمكن تحليل توزيع وقت الترجمة لكل مقطع لكل محرك MT - عند إرسال مقطع واحد في كل مرة (فردي) و 100 مقطع في وقت واحد (مجمع) - أدناه.

في السيناريو الفردي، قدمت Microsoft أسرع ترجمة (متوسط 0.09 ثانية لكل مقطع). كانت أمازون وجوجل أبطأ بحوالي مرتين (بمتوسطات قريبة من 0.2 ثانية)، وكان DeepL هو الأبطأ (بمتوسط 0.96 ثانية لكل مقطع)، أي ما يقرب من عشر مرات أبطأ من مايكروسوفت.

أول شيء يجب ملاحظته عند استخدام المكالمة المجمعة لواجهات برمجة التطبيقات مقارنة بالاستدعاء الفردي هو أنه كان هناك انخفاض كبير في وقت الترجمة لكل مقطع. بالنسبة لـ DeepL، على سبيل المثال، انخفض متوسط وقت الترجمة لكل مقطع من 0.95 ثانية في التنفيذ الفردي إلى 0.02 ثانية في التنفيذ الجماعي. 

تظهر هذه النتائج بوضوح أن العملية الجماعية أكثر كفاءة بكثير من إرسال المقاطع بشكل فردي للترجمة. فيما يتعلق بالأداء الفردي للمحركات، حصلت Microsoft وGoogle على أقل أوقات ترجمة (بمتوسط 0.003 و0.002 ثانية لكل مقطع، على التوالي)، في حين أن أعلى وقت ترجمة كان من Amazon (بمتوسط 0.09 ثانية).

نعتقد أن سبب هذا الأداء الضعيف لأمازون هو أنها لا توفر مكالمة مجمعة حقيقية، والتي كان علينا تقريبها في تجاربنا كما ذكرنا سابقًا.

لذلك، قدمت محركات الترجمة الآلية التي تم تقييمها وقتًا منخفضًا للترجمة لكل جزء مما يجعلها مناسبة لتطبيقات الترجمة في الوقت الفعلي. كان الاستثناء الوحيد هو DeepL في السيناريو الوحيد الذي كان فيه متوسط وقت الترجمة لجملة واحدة قريبًا من ثانية واحدة.

لتحليل قابلية التوسع للمحركات، نقدم أدناه وقت استجابة محركات MT عندما نقوم بتغيير عدد الأجزاء. في جميع المنحنيات، ينمو الوقت خطيًا مع عدد الأجزاء.

ومع ذلك، فإن المعامل الخطي لبعض المحركات أصغر بكثير من غيرها. على سبيل المثال، تمتلك DeepL أعلى معامل في السيناريو الفردي وAmazon أعلى معامل في السيناريو الجماعي، مما يعني أنهما لا يتوسعان بنفس كفاءة منافسيهما في كل سيناريو على حدة.

الخاتمة

في هذه الورقة، قدمنا تقييمًا لأربعة محركات الترجمة الآلية فيما يتعلق بالجودة ووقت الاستجابة. أظهرت تقييماتنا أن الجودة للمحركات متشابهة، ولكن أمازون وDeepl هما الأفضل أداءً. فيما يتعلق بوقت الاستجابة، قدمت المحركات بشكل عام أداءً جيدًا، باستثناء DeepL عند إرسال مقطع واحد في كل مرة، وAmazon في المكالمة المجمعة.

الإعداد التجريبي

في هذا القسم، نقدم الإعداد الذي استخدمناه في تقييمنا التجريبي. على وجه التحديد، نصف مجموعة البيانات الحقيقية، ومحركات الترجمة الآلية، والمعايير المستخدمة لتقييم المحركات.

البيانات

مجموعة البيانات المستخدمة في هذا التقييم، والتي تنشأ من 13 ذاكرة ترجمة من شركات مختلفة تم إنشاؤها بواسطة المترجمين المحترفين، تحتوي على اللغة الإنجليزية كلغة مصدر وسبع لغات مستهدفة: 

  • الألمانية (de)
  • الإسبانية (sp)
  • الفرنسية (fr)
  • الإيطالية (it)
  • اليابانية (ja)
  • البرتغالية البرازيلية (pt)
  • الصينية (zh)

كل جملة باللغة الإنجليزية لها على الأقل زوج مرافق مع واحدة من اللغات المستهدفة المذكورة. يوجد ما مجموعه 224,223 جزءًا باللغة الإنجليزية في مجموعة البيانات و315,073 زوجًا.

ويعرض الشكل أدناه توزيع عدد الأجزاء لكل لغة مستهدفة. تحتوي البرتغالية البرازيلية على أكبر عدد من الشرائح (حوالي 60 ألف شريحة)، في حين أن اليابانية والإسبانية تحتويان على أقل عدد، حوالي 20 ألف شريحة. ومن السمات المهمة لمجموعة البيانات هذه لهذا التقييم أنها تغطي مجموعة كبيرة ومتنوعة من الموضوعات.

يوضح الشكل التالي سحابة كلمات للمقاطع الإنجليزية. كما يمكن للمرء أن يرى، هناك محتوى متعلق بالصحة، القانون، تكنولوجيا المعلومات، إلخ.

يتم تنظيم مجموعة البيانات بمقطع نصي باللغة المصدر، وقائمة مراجع تحتوي على الترجمات باللغات المستهدفة. تحتوي هذه القوائم المرجعية على ترجمة واحدة على الأقل مرتبطة بالنص الأصلي، على الرغم من أنه يمكن أن تحتوي على أكثر من ترجمة واحدة، حيث يمكن أن يحتوي المقطع على أكثر من ترجمة ممكنة.

لتبسيط تحليلنا، قمنا بتجميع الأجزاء في نطاقات بحجم 10، كما هو موضح في الشكل أدناه، من أجل تقييم تأثير حجم الجزء في الجودة لترجمة المحركات.

هذه الورقة مخصصة لـ…

كل شركة تخطط لتنفيذ أي نوع من الترجمات تحتاج إلى قراءة هذه الورقة لأننا نوضح المزايا والعيوب المختلفة لكل أداة من أدوات الترجمة الآلية من حيث الجودة ووقت الاستجابة. هذا المحتوى المتعمق موجه نحو المحترفين الذين يشاركون بنشاط في تحسين منتجاتهم وخدماتهم المتعلقة بالترجمة، مثل:

  • مديرو المنتجات,
  • مديرو المشاريع,
  • مديرو التوطين,
  • قادة الهندسة,
  • المترجمون,
  • وكالات الترجمة.

تمت كتابة هذه الورقة بواسطة مهندسي Bureau Works.

Bureau Works تقدم خدمات الترجمة الشاملة داخل الشركة على منصة التوطين الخاصة بنا التي تتيح تقارير متعمقة، وذاكرة ترجمات متطورة، وتوطين آلي.

الأهم من ذلك أننا نجمع بين العناصر التجارية والفنية للتوطين تحت سقف واحد.

غابرييل ميلو، لوتشيانو باربوسا، فيليب دي مينيزيس، فانيلسون بوريجيو، هنريك كابرال.

Bureauworks، جامعة بيرنامبوكو الفيدرالية، جامعة بيرنامبوكو الفيدرالية الريفية

3685 جبل ديابلو بوليفارد، لافاييت، كاليفورنيا، الولايات المتحدة، شارع. البروفيسور مورايس ريغو، 1235، ريسيفي، PE، البرازيل، Rua Dom ManueL de Medeiros، s/n، ريسيفي، PE، البرازيل

3685 Mt DiabLo BLvd، لافاييت، كاليفورنيا، الولايات المتحدة، Av. البروفيسور مورايس ريغو، 1235، ريسيفي، PE، البرازيل، Rua Dom ManueL de Medeiros، s/n، ريسيفي، PE، البرازيل

{gabrieL.meLo، fiLipe، henrique}@bureauworks.com Luciano@cin.ufpe.br، vaniLson.buregio@ufrpe.br

Unlock the power of glocalization with our Translation Management System.

Unlock the power of

with our Translation Management System.

Sign up today
Translate twice as fast impeccably
Get Started
Our online Events!
Join our community

جرّب Bureau Works مجانًا لمدة 14 يومًا

المستقبل على بعد نقرات قليلة
البدء الآن
أول 14 يوماً علينا
الدعم