Technologie

Wie sich die maschinelle Übersetzung an Double-Byte-Sprachen anpasst

UTF-8 zusammen mit neuronalen Netzwerken steigern die Leistung der maschinellen Übersetzung bei der Verarbeitung von Double-Byte- und Multi-Byte-Sprachen.

8 minutes, 48 seconds

Jede Sprache auf der Welt gehört zu einer Familie, die ihren Ursprung und ihre Verbreitung erklärt, aber wussten Sie, dass nach den Parametern des Datensystems alle gesprochenen Sprachen in zwei Gruppen unterteilt werden können: Single-Byte- und Double-Byte-Sprachen?

Doppelbyte-Sprachen beziehen sich auf Zeichenkodierungssysteme, bei denen ein Zeichen durch 2 Bytes (16 Bit) dargestellt wird, um ein Zeichen darzustellen.

Dies geschieht, weil diese Sprachen über einen großen Zeichensatz verfügen, der mehr Speicherplatz erfordert als Einzelbyte-(8-Bit-)Kodierungssysteme.

Zu den Double-Byte-Sprachen gehören Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch, Vietnamesisch (in einigen älteren Kodierungen) und viele andere auf der ganzen Welt.

Support-Systeme wie UTF-16 und UTF-8, die zwischen einem, zwei oder sogar mehr Bytes wechseln können, sind für Double-Byte- und Multi-Byte-Sprachen notwendig.

Wichtig: Double Byte (DBCS)-Sprachen werden oft fälschlicherweise als Multi-Byte Character Set (MBCS) bezeichnet, da sie ähnliche Konzepte haben.

Schauen wir uns die Details in diesem Artikel an und konzentrieren wir uns auf den Zusammenhang dieses Codierungsunterschieds in maschinelle Übersetzung!

1. Zeichenzuordnungssysteme für Doppelbyte-Sprachen

Der Kodierungsprozess wurde nach der Erfindung von UTF (dem Unicode Transformation Format) einfacher.

1.1) Die Systeme, die vor der Verbreitung von Unicode entstanden – DBCS (Double-Byte Character Set)

Die Erstellung von DBCS erfolgte für Sprachen, die viele Zeichen benötigen, hauptsächlich Chinesisch, Japanisch und Koreanisch (CJK).

Beispiele: Shift JIS (Japanisch), Big5 (Traditionelles Chinesisch), EUC-KR (Koreanisch).

Mit 2 Bytes (16 Bit) können bis zu 65.536 Zeichen (2¹⁶) dargestellt werden.

‍

1.2) Erweiterte Systeme: UTF-16 und UTF-8

UTF ist ein Kodierungsschema, das Unicode-Zeichen in binäre Formate umwandelt; so können Computer und Software-Systeme Text aus vielen Sprachen und Schriftsystemen effektiv darstellen und austauschen.

Es ist ein internationaler Standard, bei dem jedem Zeichen eine eindeutige Nummer (Codepunkt) zugewiesen wird, unabhängig davon, zu welcher Sprache oder welchem Schriftsystem es gehört.

UTF beschreibt den Prozess der Umwandlung dieser Codepunktnummern in einen Bytestrom, der für einen Computer verständlich ist.

Beispiele für UTF:

UTF-16: 2 oder 4 Byte für jedes Zeichen.

Es wird immer noch in bestimmten Systeme verwendet, die mit asiatischen Zeichen arbeiten.

Einige Versionen von Windows verwenden beispielsweise intern UTF-16.

‍

UTF-8: Jedes Zeichen ist je nach Symbol 1-4 Byte wert.

Lateinische Alphabete (Englisch, Spanisch, Portugiesisch) - 1 Byte; Sonderzeichen und asiatische Sprachen - 2-4 Bytes.

Außerdem ist UTF-8 heutzutage die am weitesten verbreitete Kodierung, im Web, in Datenbanken und in modernen Anwendungen.

‍

1.3 Das SBCS funktioniert nicht für Doppelbyte-Sprachen. Warum?

SBCS (Single-Byte Character Set) ist ein System, das maximal 256 Zeichen hat (1 Byte = 8 Bit = 2⁸ = 256 Möglichkeiten). Es ist in Ordnung für Sprachen mit kleineren Alphabeten, z. B. Englisch, Spanisch oder Französisch, die innerhalb dieser Grenze dargestellt werden können.

Bei Sprachen, die aus tausend Zeichen bestehen, fehlt SBCS der Platz für Double-Byte-Sprachen!

‍
Chinesisch hat mehr als 50.000 Zeichen, obwohl 3.000–5.000 davon im täglichen Gebrauch sind;

Japanisch kombiniert Kanji (chinesische Logogramme) mit Hiragana und Katakana und benötigt weit mehr Zeichen, als SBCS enthalten kann.

Deshalb benötigen Double-Byte-Sprachen geeignete Systeme.

2. Doppelbyte-Sprachen in der maschinellen Übersetzung

Es gibt einige auffällige Funktionen, die diese Sprachen haben und die Maschinen bewältigen müssen:

2.1) Support für Kodierung

Die überwiegende Mehrheit der derzeit verfügbaren Sprachmaschinen-Tools kann effizient mit UTF-8 und UTF-16 arbeiten, da diese vielseitig sind und hochkomplexe Zeichen darstellen.

UTF-8 wird besser akzeptiert als die anderen Codierungsformate, da es sowohl englischsprachige (die 1 Byte verwenden) als auch japanische und chinesische Sprecher (die mehrere Bytes benötigen) zulässt.

Dies ist optimal, wenn man das wettbewerbsorientierte Weltgeschäft betrachtet, das von Ländern dominiert wird, in denen Englisch und Mandarin sprechende.

2.2) Segmentierung von Text

Im Spanischen oder Portugiesischen werden Leerzeichen verwendet, um jedes Wort zu segmentieren, was das Isolieren von Wörtern in einem Satz sehr einfach macht.

Im Deutschen oder Japanischen wird die Worttrennung oder Textsegmentierung, bei der lexikalische Einheiten abgegrenzt werden, von Maschinen vorgenommen, bevor eine Übersetzung durchgeführt wird, da Leerzeichen als Trennzeichen fehlen.

2.3) Mehrdeutigkeit und Kontext

Eine Figur in zahlreichen asiatischen Sprachen kann je nach Situation verschiedene Definitionen haben.

Nehmen wir zum Beispiel „银行“, im Chinesischen, genauer gesagt „yínháng“, was übersetzt „Bank“ bedeutet, könnte ein Finanzinstitut oder das Ufer eines Flusses bedeuten.

Systeme wie DeepL, Google Übersetzer, Microsoft Übersetzer und Papago (Naver) verwenden heutzutage neuronale Netzwerke*, um den Kontext vorherzusagen und dann den besten Satz aus den vorhandenen Optionen auszuwählen.

*Künstliche neuronale Netzwerke sind rechnergestützte Modelle, die das menschliche Gehirn nachahmen. Die massiven Daten werden über künstliche Neuronenschichten verarbeitet, um nach Mustern zu suchen und zu lernen, Entscheidungen mit oder ohne vorgegebene Regeln zu treffen.

Bei der maschinellen Übersetzung berücksichtigen neuronale Netzwerke den Kontext auf Satzebene statt einer Wort-für-Wort-Übersetzung, was mit unserem Ziel übereinstimmt, natürlichere und bessere Übersetzungen zu erstellen.

2.4) Wortstellung

Die Unterschiede in den grammatikalischen Strukturen zwischen den Sprachen sind enorm...

Beispiel:

Ich esse einen Apfel.

Japanisch: „Ich esse Apfel“ („リンゴ　を　食む)

Maschinelle Übersetzung muss die Wörter richtig anordnen, damit die Bedeutung des Satzes nicht verloren geht.

2.5) Übersetzung von Phrasal Ausdrücken von muttersprachlichen Redewendungen

Redewendungen können schwierig direkt zu übersetzen sein.

Zb: "Sogar Affen fallen von Bäumen" lässt sich natürlich mit der japanischen Redewendung:猿も木から落ちる ("Auch Experten machen Fehler") übersetzen.

3. Sind DBCS und MBCS dasselbe?

Double-Byte (DBCS) und Multi-Byte (MBCS) sollten voneinander unterschieden werden.

Double-Byte-Zeichensatz (DBCS) → Zunächst ist das Codierungssystem, das doppelte Bytes oder 16 Bit pro Zeichen verwaltet, der Double-Byte-Zeichensatz (DBCS).

Beispiel: Big5 (Traditionelles Chinesisch), Shift JIS (Japanisch), EUC-JP(Koreanisch)

Dies mussten Systeme sein, die vor-unicode Paradigmen ausnutzten.

Multi-Byte Character Set (MBCS) → (jede Codierung mit zwei Byte pro Zeichen)

Bsp.: (UTF-8, kann bis zu 1, 2, 3 oder 4 Byte pro Zeichen verwenden)

Vor Unicode wurde DBCS (Double-Byte Character Set) typischerweise für die vielen D's wie CJK (Chinesisch, Japanisch, Koreanisch) mit einer Beschränkung auf zwei Byte pro Zeichen verwendet.

Einige andere Sprachen als Thailändisch, Vietnamesisch, Hindi und Arabisch (Multi-Byte-Zeichensatz) werden normalerweise in diesem Unicode-System codiert.

Aufgrund von UTF-8 und UTF-16 stirbt DBCS aus und viele Sprachen werden oder werden bald als 'Multi-Byte' bzw. unter ihren jeweiligen Namen dargestellt (z.B. Chinesisch, Japanisch, Koreanisch, Swahili und andere).

Schlussfolgerung: Für die maschinelle Übersetzung von Double-byte-Sprachen sind die Ähnlichkeiten stärker denn je. Heute können Systeme Daten für die meisten Sprachen verarbeiten (zwei oder mehr Bytes).

Double-Byte-Sprachen ist immer noch ein Begriff, der verwendet wird und sehr beliebt ist, aber jetzt wissen Sie, dass die Bandbreite größer ist.

4. Double-Byte (DBCS) und Multi-Byte-Sprachen weltweit

Wir haben über Chinesisch und Japanisch gesprochen, aber es gibt noch viel mehr Double-Byte-Sprachen, die ebenfalls einbezogen werden können. Machen wir also eine Reise um die Welt, um all diese Sprachen zu lernen...

4.1 Ältere historisch Double-Byte (DBCS) Sprachen

DBCS wird größtenteils von CJK-Sprachen (Chinesisch, Japanisch, Koreanisch) in Ostasien verwendet.

Vereinfachtes Chinesisch (China, Singapur) – Alte Kodierung: GB2312, GBK
traditionelles Chinesisch (Taiwan, Hongkong, Macau) – Alte Kodierung: Big5
Japanisch – Alte Kodierung: Shift JIS, EUC-JP
Koreanisch – Alte Kodierung: EUC-KR

Diese Sprachen haben eine große Anzahl von Zeichen, was in vor-Unicode-Systemen eine Double-Byte-Codierung erforderlich macht.

Koreanische TastaturBild von Wikimedia Commons

4.2 Standardkonform – Sprachen mit Mehrbyte-Zeichencodierung (MBCS)

Heutzutage können Kodierungssysteme in diesen Sprachen zwei, drei oder sogar vier Bytes pro Zeichen erfordern. Sie werden heute in der Regel als UTF-8 oder UTF-16 symbolisiert.

Südostasiatische Sprachen:

→ Vietnamesisch — Verwendet das lateinische Alphabet mit vielen diakritischen Zeichen, die in älteren Kodierungen mehr als ein Byte annehmen können.

→ Thailändisch – einige Zeichenkombinationen benötigen mehr als 1 Byte, um sie korrekt darzustellen.

→ Laotisch — (genau wie Thai) Ein Byte, besser geeignet für 1-Byte-Zeichen im relevanten Kontext.

→ Khmer (Kambodscha) – hat einen großen Zeichensatz, der Multi-Byte benötigt.

→ Myanmar (Burmesisch) – Enthält harte Zeichen, die für die Multi-Byte-Kodierung benötigt werden.

Südasiatische Sprachen:

→ Hindi und andere Devanagari wie Hindi (Marathi), Nepali/ Sanskrit, Tamil, Telugu, Kannada, Bengali, Gurmukhi (Punjabi), Gujarati, Malayalam, Singhalesisch.

Die Skripte sind sehr komplex und müssen in einem Format namens Multi-Byte-Codierung mit ihren verschiedenen Kombinationen dargestellt werden.

Sprachen des Nahen Ostens: Mehrere Bytes

→ Arabisch, Persisch – diese Sprachen werden oft mit kontextualisierter Zeichencodierung codiert, was bedeutet, dass dasselbe Zeichen je nach Kontext durch mehr als ein Byte dargestellt werden kann, da sie relativ kleine Alphabete haben.

→ Hebräisch: Wie im Arabischen, je nachdem, was Sie zum Codieren verwenden, dauert es mehr als ein Byte.

Tibetisch, Georgisch und Armenisch: Möglicherweise werden viele Bytes benötigt, um sie in bestimmten Codierungen zu erhalten.

Die meisten Originalschriften der afrikanischen und amerikanischen indigenen Sprachen (die meisten von ihnen mehrere Bytes).

5. Warum ist es wichtig, dass die maschinelle Übersetzung mit Double-Byte- und Multi-Byte-Sprachen umgehen kann?

5.1) Globale Zugänglichkeit

Es ist eine große Chance für viele asiatische Sprachen wie Chinesisch, Japanisch und Koreanisch sowie einige südostasiatische Sprachen – was bedeutet, dass die Codierungsanforderung mehrere Bytes beträgt.

Wenn die Systeme der Übersetzung nicht in der Lage sind, Double-Byte- und Multi-Byte-Codierung korrekt in Wörter umzuwandeln, führt dies zu Codierungsfehlern, Systemausfällen und falscher Übersetzung.

‍
Da sich der internationale Handel und die Kommunikation ständig weiterentwickeln, ist die Bereitstellung von Übersetzungen für diese Sprachen ein entscheidender Aspekt für die Marktexpansion und eine bessere globale Kommunikation.

Flughafen Shenzhen, Shenzhen, ChinaBild von Andy Beales in Unsplash

5.2) Wettbewerbsfähigkeit auf dem Weltmarkt

Die Unterstützung von Sprachen, die traditionell schwer zu übersetzen sind, auf hochwertigen maschinellen Übersetzungsdienstleistungen kann ebenfalls eine Basis für zusätzliche Benutzer schaffen.

Dies verbessert nicht nur die Benutzererfahrung, sondern ermöglicht auch vielen mehr, Inhalt in ihren Sprachen zu erhalten und zu nutzen.

Kunden in wichtigen Märkten wie Asien müssen davor geschützt werden, ihre Verkäufe zu verlieren, wenn maschinelle Übersetzungssysteme Schwierigkeiten mit Mehrbyte-Sprachen haben.

5.3) Interoperabilität und Datenflüsse

Maschinelle Übersetzung muss gut mit vielen Byte-Sprachen funktionieren, sonst kann die richtige Information nicht auf Geräte und Plattformen übertragen werden, die auf mehrbytebasierten Sprachen basieren.

Diese Fähigkeit ermöglicht es, Informationen korrekt zu verarbeiten, unabhängig von ihrem ursprünglichen Speicherort sowie dem Format der Codierung, und unterstützt somit die Nutzung mehrsprachiger Daten innerhalb globaler Systeme wie Anwendungen, Websites und Datenbanken. Kurz gesagt, Interoperabilität und Datenflüsse stellen sicher, dass verschiedene Systeme mit unterschiedlichen Codierungsformaten Informationen effektiv austauschen können, insbesondere in mehrsprachigen Kontexten.

6. Schlüssel Punkte zum Abschluss

Es gibt viele Herausforderungen bei der maschinellen Übersetzung für Doppelbyte-Sprachen, wie Segmentierung, Grammatik und kontextuelle Bedeutungen.

Für die älteren Systeme wie Shift JIS für Japanisch, Big5 für traditionelles Chinesisch, EUC-KR für Koreanisch waren die Begriffe der Double-Byte-Zeichensätze (DBCS) wie eine schwierige Aufgabe.

Mit dem Aufkommen von neuronalen Netzwerken, Deep Learning und natürlicher Sprachverarbeitung (NLP), die ansteckende Fortschritte machen, werden Zeichenspeicher-Systeme bei Übersetzungen genauer sein — besser, schneller. UTF-8 ist eine Markierung und hat das Szenario geändert, um mit diesen Sprachen mit mehreren Zeichen umzugehen.

‍

Doppelbyte- und Mehrbyte-Support ist ein Muss für maschinelle Übersetzung; und unerlässlich, um Genauigkeit, Kontext und Interoperabilität sicherzustellen.

Das Fehlen dieser Fähigkeit hinterlässt einen schlechten Beigeschmack in den meisten Übersetzungs-Systemen und verzerrt das Benutzererlebnis, wodurch die Leistung von Übersetzungs-Systemen verringert wird.

‍
Der effizienteste Weg wäre also, die maschinelle Übersetzung aus Double-Byte-Sprachen mit bestehenden modernen Systeme zu optimieren.

Die gute Nachricht ist, dass wir dafür bereits Support haben, wir müssen diese Modelle nur weiter verbessern.

‍