التكنولوجيا

كيف تتكيف الترجمة الآلية مع اللغات ذات البايت المزدوج

UTF-8 جنبًا إلى جنب مع الشبكات العصبية يعزز أداء الترجمة الآلية عند التعامل مع اللغات ذات البايت المزدوج والبايت المتعدد.

8 minutes, 48 seconds

تنتمي كل لغة في العالم إلى عائلة تشرح أصلها وانتشارها، ولكن هل تعلم أنه وفقًا لمعايير نظام البيانات، يمكن فصل جميع اللغات المنطوقة إلى مجموعتين: لغات أحادية البايت ومزدوجة البايت؟

تشير اللغات ذات البايتين إلى أنظمة ترميز الأحرف حيث يُمثَّل الحرف بواسطتها بـ 2 بايت (16 بت) لتمثيل الحرف.

يحدث هذا لأن هذه اللغات تحتوي على مجموعة أحرف كبيرة، مما يتطلب مساحة أكبر لتخزينها مقارنة بأنظمة الترميز أحادية البايت (8 بت).

تشمل اللغات مزدوجة البايت الصينية (المبسطة والتقليدية)، واليابانية، والكورية، والفيتنامية (في بعض الترميزات القديمة)، والعديد غيرها حول العالم.

أنظمة الدعم مثل UTF-16 و UTF-8 التي يمكنها التبديل بين بايت واحد أو اثنين أو حتى أكثر ضرورية للغات ثنائية البايت ومتعددة البايت.

مهم: غالبا ما يتم تحديد لغات البايت المزدوج (DBCS) عن طريق الخطأ على أنها مجموعة أحرف متعددة البايت (MBCS) لأن لها مفاهيم متشابهة.

دعونا نلقي نظرة على التفاصيل في هذه المقالة، مع التركيز على علاقة هذا الاختلاف في الترميز في الترجمة الآلية!

1. أنظمة تعيين الأحرف للغات ثنائية البايت

أصبح ترميز الأحرف أسهل بعد اختراع UTF (تنسيق تحويل يونيكود).

1.1) الأنظمة التي ظهرت قبل أن يصبح يونيكود شائعًا – DBCS (مجموعة الأحرف ذات البايتين)

تم إنشاء DBCS للغات التي تحتاج إلى العديد من الأحرف، وخاصة الصينية واليابانية والكورية (CJK).

أمثلة: Shift JIS (اليابانية)، Big5 (الصينية التقليدية)، EUC-KR (الكورية).

باستخدام 2 بايت (16 بت)، يمكنه تمثيل ما يصل إلى 65,536 حرفًا (2¹⁶).

‍

1.2) الأنظمة المتقدمة: UTF-16 و UTF-8

UTF هو نظام ترميز يحول أحرف يونيكود إلى صيغ ثنائية؛ وبهذا يمكن لأجهزة الكمبيوتر وبرمجيات الأنظمة عرض النصوص ومشاركتها من العديد من اللغات والأنظمة الكتابية بشكل فعال.

وهو معيار دولي يتم بموجبه تعيين رقم فريد (نقطة رمز) لكل حرف، بغض النظر عن انتمائه لأي لغة أو نظام كتابة.

يصف UTF عملية تحويل أرقام نقاط التعليمات البرمجية هذه إلى دفق بايت يمكن فهمه بواسطة الكمبيوتر.

أمثلة على UTF:

UTF-16: 2 أو 4 بايت لكل حرف.

لا يزال قيد الاستخدام في الأنظمة المحددة التي تتعامل مع الأحرف الآسيوية.

على سبيل المثال، تستخدم بعض إصدارات Windows UTF-16 داخليًا.

‍

UTF-8: كل حرف يساوي 1-4 بايت، حسب الرمز.

الحروف الأبجدية اللاتينية (الإنجليزية، الإسبانية، البرتغالية) - 1 بايت؛ الأحرف الخاصة واللغات الآسيوية - 2-4 بايت.

أيضًا، UTF-8 هو الترميز الأكثر استخدامًا في الوقت الحاضر، على الويب، في قواعد البيانات، وفي التطبيقات الحديثة.

‍

1.3 لا يعمل SBCS مع اللغات مزدوجة البايت. لماذا؟

SBCS (مجموعة الأحرف أحادية البايت) هو نظام يحتوي على 256 حرفًا كحد أقصى (1 بايت = 8 بت = 2⁸ = 256 إمكانية). لا بأس باللغات ذات الحروف الهجائية الأصغر ، الإنجليزية على سبيل المثال ، الإسبانية أو الفرنسية ، التي يمكن تمثيلها ضمن هذا الحد.

مع اللغات التي تستخدم ألف حرف، تفتقر SBCS إلى مساحة للغات مزدوجة البايت!

‍
تحتوي اللغة الصينية على أكثر من 50,000 رمز، رغم أن 3,000-5,000 من هذه الرموز تُستخدم يوميًا؛

تجمع اللغة اليابانية بين الكانجي (الرموز الصينية) والهيراكانا والكاتاكانا، وتتطلب عددًا أكبر بكثير من الرموز مما يمكن أن تحتويه SBCS.

لذلك هذا هو السبب في أن اللغات ذات البايتين تحتاج إلى الأنظمة المناسبة.

2. اللغات ذات البايتين في الترجمة الآلية

هناك بعض الميزات البارزة التي تمتلكها هذه اللغات، والتي يجب على الآلات التعامل معها:

2.1) الدعم للترميز

الغالبية العظمى من الأدوات اللغوية الآلية المتوفرة حالياً يمكنها الأداء بكفاءة مع UTF-8 وUTF-16، حيث أن هذه الترميزات متعددة الاستخدامات وتمثل أحرفاً معقدة للغاية.

UTF-8 مقبول أكثر من بقية تنسيقات الترميز لأنه يسمح للمتحدثين باللغة الإنجليزية (الذين يستخدمون 1 بايت) وكذلك المتحدثين اليابانيين والصينيين (الذين يحتاجون إلى بايت متعددة).

هذا هو الأمثل عند النظر في الأعمال العالمية التنافسية التي تهيمن عليها دول اللغة الإنجليزية و المتحدثون بالماندرين.

2.2) تجزئة النص

في الإسبانية أو البرتغالية، يتم استخدام المسافات لتقسيم كل كلمة، مما يجعل عزل الكلمات في الجملة أمراً سهلاً للغاية.

في اللغة الألمانية أو اليابانية ، يتم تحديد الكلمات ، أو تجزئة النص ، حيث يتم ترسيم الوحدات المعجمية ، بواسطة الآلات قبل إجراء أي ترجمة ، لأن المسافات كمحددات غائبة.

2.3) الغموض والسياق

يمكن أن يكون للحرف في العديد من اللغات الآسيوية تعريفات مختلفة حسب السياق.

خذ على سبيل المثال "银行"، باللغة الصينية، وبشكل أكثر تحديداً "yínháng"، والتي تترجم إلى "البنك"، يمكن أن تعني مؤسسة مالية أو ضفة نهر.

الأنظمة في الوقت الحاضر مثل DeepL و Google المترجم و Microsoft المترجم و Papago (Naver) تستخدم الشبكات العصبية* للتنبؤ بالسياق ثم تقرر أفضل جملة من الخيارات المتاحة.

*الشبكات العصبية الاصطناعية هي نماذج حسابية تحاكي الدماغ البشري. تتم معالجة البيانات الضخمة عبر طبقات الخلايا العصبية الاصطناعية، والبحث عن الأنماط وتعلم اتخاذ القرارات مع أو بدون أي قواعد محددة مسبقًا.

في الترجمة الآلية، تأخذ الشبكات العصبية في الاعتبار السياق على مستوى الجملة بدلاً من الترجمة كلمة بكلمة، وهذا يتماشى مع هدفنا في تقديم ترجمات أكثر طبيعية وأفضل.

2.4) ترتيب الكلمات

الاختلافات في التراكيب النحوية بين اللغات هائلة ...

مثل:

أنا آكل تفاحة.

اليابانية:「أنا آكل تفاحة」 (「リンゴ　を　食む)

يجب على الترجمة الآلية إعادة ترتيب الكلمات بشكل صحيح حتى لا يضيع معنى الجملة.

2.5) ترجمة التعبيرات الجملية للتعابير الأصلية

يمكن أن تكون التعابير صعبة الترجمة مباشرة.

مثل: "حتى القردة تسقط من الأشجار" تترجم بشكل طبيعي إلى المصطلح الياباني:猿も木から落ちる ("حتى الخبراء يرتكبون أخطاء").

3. هل DBCS و MBCS نفس الشيء؟

يجب التمييز بين البايت المزدوج (DBCS) والمتعدد البايت (MBCS) عن بعضهما البعض.

مجموعة الأحرف ذات البايتين (DBCS) → في البداية، الأنظمة الترميزية التي تدير بايتين أو 16 بت للحرف هي مجموعة الأحرف ذات البايتين (DBCS).

مثال: Big5 (الصينية التقليدية)، Shift JIS (اليابانية)، EUC-JP(الكورية)

كان يجب أن تكون هذه الأنظمة التي استغلت النماذج السابقة لليونكود.

مجموعة الأحرف متعددة البايت (MBCS) → (أي ترميز من بايتين لكل حرف)

على سبيل المثال: (UTF-8 ، قد يستخدم ما يصل إلى 1 أو 2 أو 3 أو 4 بايت لكل حرف)

قبل Unicode ، تم استخدام DBCS (مجموعة الأحرف مزدوجة البايت) عادة للعديد من D مثل CJK (الصينية واليابانية والكورية) مع تقييد ثنائي البايت لكل حرف.

عادة ما يتم ترميز بعض اللغات بخلاف التايلاندية والفيتنامية والهندية و العربية (مجموعة الأحرف متعددة البايت) في نظام Unicode هذا.

بسبب UTF-8 و UTF-16، يتلاشى DBCS ويتم تمثيل العديد من اللغات أو سيتم تمثيلها قريباً على أنها "متعددة البايتات" أو بالأحرى تحت أسمائها الخاصة (مثل الصينية، اليابانية، الكورية، السواحيلية، وغيرها).

استنتاج: بالنسبة لـ الترجمة الآلية للغات ذات البايت المزدوج، فإن أوجه التشابه أقوى من أي وقت مضى. اليوم، يمكن للأنظمة التعامل مع البيانات لمعظم اللغات (بايتان أو أكثر).

لا تزال اللغات مزدوجة البايت مصطلحًا قيد الاستخدام وهي شائعة جدًا، لكنك تعلم الآن أن النطاق أكبر.

4. اللغات مزدوجة البايت (DBCS) ومتعددة البايت في جميع أنحاء العالم

لقد تحدثنا عن الصينية واليابانية ولكن هناك الكثير من اللغات مزدوجة البايت التي يجب تضمينها أيضا. لذلك دعونا نقوم بجولة حول العالم لتعلم كل هذه اللغات…

4.1 اللغات القديمة تاريخياً ذات البايت المزدوج (DBCS)

DBCS تُستخدم في الغالب من قبل لغات CJK (الصينية، اليابانية، الكورية) في شرق آسيا.

الصينية المبسطة (الصين وسنغافورة) - الترميز القديم: GB2312 ، GBK
الصينية التقليدية (تايوان ، هونغ كونغ ، ماكاو) - الترميز القديم: Big5
اليابانية - الترميز القديم: Shift JIS ، EUC-JP
الكوري – الترميز القديم: EUC-KR

هذه اللغات تحتوي على عدد هائل من الأحرف، مما يستلزم ترميز البايت المزدوج في الأنظمة قبل اليونيكود.

لوحة مفاتيح كوريةصورة بواسطة Wikimedia Commons

4.2 متوافق مع المعايير – اللغات التي تستخدم وحدات بايت متعددة (MBCS)

في الوقت الحاضر، قد تتطلب أنظمة الترميز في هذه اللغات وحدتين أو ثلاث أو حتى أربع وحدات بايت لكل حرف. عادة ما يتم ترميزها باسم UTF-8 أو UTF-16 اليوم.

لغات جنوب شرق آسيا:

→ الفيتنامية — تستخدم الأبجدية اللاتينية مع العديد من علامات التشكيل التي قد تستغرق أكثر من بايت واحد في الترميزات القديمة.

→ التايلاندية - تحتاج بعض مجموعات الأحرف إلى أكثر من 1 بايت لتمثيلها بشكل صحيح.

→ لاو — (تماما مثل التايلاندية) بايت واحد، أكثر ملاءمة لأحرف 1 بايت في السياق ذي الصلة.

→ الخمير (كمبوديا) – لديه مجموعة أحرف كبيرة تحتاج إلى متعدد البايتات.

→ ميانمار (بورمية) – يحتوي على أحرف صلبة مطلوبة للترميز متعدد البايت.

لغات جنوب آسيا:

→ الهندية وغيرها من الديفاناغاري مثل الهندية (الماراثية)، النيبالية/ السنسكريتية، التاميلية، التيلجو، الكانادا، البنغالية، الغورموخي (البنجابية)، الغوجاراتية، المالايالامية، السنهالية.

البرامج النصية معقدة للغاية وتحتاج إلى تمثيلها بتنسيق يسمى ترميز متعدد البايت مع مجموعاتها المختلفة.

لغات الشرق الأوسط: بايت متعددة

→ العربية، الفارسية – غالبا ما يتم ترميز هذه اللغات باستخدام ترميز الأحرف السياقي، مما يعني أن نفس الحرف قد يُمثّل بأكثر من بايت واحد، اعتمادا على السياق، نظرا لأن لديهم أبجديات صغيرة نسبيا.

→ العبرية: مثل اللغة العربية، اعتمادًا على ما تستخدمه لتشفيره يشتمل على أكثر من بايت واحد.

التبتية والجورجية والأرمنية: قد تحتاج إلى العديد من وحدات البايت للحصول عليها في ترميزات معينة.

معظم النصوص الأصلية لللغات السكان الأصليين الأفريقية والأمريكية (بايت متعددة معظمها).

5. لماذا من المهم أن تتعامل الترجمة الآلية مع اللغات ذات البايت المزدوج والمتعدد البايت؟

5.1) إمكانية الوصول العالمية

إنها فرصة كبيرة للعديد من اللغات الآسيوية مثل الصينية واليابانية والكورية، بالإضافة إلى بعض لغات جنوب شرق آسيا - مما يعني أن متطلبات الترميز هي بايت متعددة.

إذا كانت الأنظمة الخاصة بالترجمة غير قادرة على التعامل بشكل صحيح مع ترميز البايت المزدوج والمتعدد في الكلمات، فإن ذلك يؤدي إلى أخطاء في الترميز، وفشل في النظام، وترجمة غير صحيحة.

‍
مع تطور التجارة الدولية والاتصالات باستمرار، يعد توفير الترجمات لتلك اللغات جانبا حيويا لتوسيع السوق وتحسين التواصل العالمي.

مطار شنتشن، شنتشن، الصينصورة بواسطة Andy Beales في Unsplash

5.2) التنافسية في السوق العالمية

دعم اللغات التي كان من الصعب تقليديًا ترجمتها على خدمات الترجمة الآلية ذات الجودة العالية يمكن أن يفتح قاعدة لمستخدمين إضافيين أيضًا.

هذا لا يحسن تجربة المستخدم فحسب، بل يمكّن الكثيرين أيضًا من استلام واستخدام المحتوى بلغاتهم.

يجب حماية العملاء في الأسواق الحيوية مثل آسيا من فقدان مبيعاتهم إذا واجهت الترجمة الآلية الأنظمة صعوبة مع اللغات متعددة البايت.

5.3) التوافقية وتدفقات البيانات

يجب أن تعمل الترجمة الآلية بشكل جيد مع اللغات متعددة البايتات وإلا لا يمكن نقل المعلومات الصحيحة إلى الأجهزة والمنصات التي تستخدم لغات تعتمد على البايتات المتعددة.

تتيح هذه القدرة التعامل مع المعلومات بشكل صحيح، سواء كان موقعها الأصلي وكذلك تنسيق الترميز، مما يساعد في استخدام البيانات متعددة اللغات ضمن الأنظمة العالمية مثل التطبيقات، والمواقع الإلكترونية، وقواعد البيانات. باختصار، يضمن التوافق وتدفق البيانات أن الأنظمة المختلفة ذات تنسيقات الترميز المختلفة يمكنها تبادل المعلومات بفعالية، خاصة في السياقات متعددة اللغات.

6. رئيسي النقاط للاستنتاج

هناك العديد من التحديات في الترجمة الآلية للغات ثنائية البايت، مثل التقسيم، القواعد، والمعاني السياقية.

بالنسبة للأنظمة القديمة مثل Shift JIS لليابانية، وBig5 للصينية التقليدية، وEUC-KR للكورية، كانت مصطلحات مجموعات الأحرف ذات البايتين (DBCS) بمثابة مهمة صعبة.

مع ظهور الشبكات العصبية، التعلم العميق، ومعالجة اللغة الطبيعية (NLP) التي تحقق تقدماً ملحوظاً، ستصبح أنظمة تخزين الأحرف أكثر دقة في الترجمات — أفضل وأسرع. UTF-8 هي علامة وغيرت السيناريو للتعامل مع هذه اللغات متعددة الأحرف.