Was sind die besten maschinellen Übersetzungs-APIs?

Eine vollständige Benchmark-Studie der besten maschinellen Übersetzungs-APIs—Google, Amazon, DeepL & Microsoft. Entdecken Sie den Spitzenreiter.
Inhaltsverzeichniss

Übersetzungs-APIs sind überall. Aber nicht alle von ihnen bieten das gleiche Leistungsniveau. 

Eine aktuelle Studie hat gezeigt, dass es keinen eindeutigen Gewinner für alle Sprachen gibt, und kommerzielle Engines haben im Vergleich zu Open-Source-Engines eine überlegene Leistung.

In dieser Benchmark-Studie wurden die Top-Player – Google, Amazon, Microsoft und DeepL – mit über 200.000 von Menschen übersetzten Segmenten in sieben Sprachen, darunter Portugiesisch, Chinesisch und Japanisch, getestet. 

DeepL und Amazon haben die Nase vorn, wobei DeepL in den europäischen Sprachen und Amazon in den asiatischen Sprachen führend ist.

Während die meisten Engines schnelle Antworten lieferten, hinkte DeepL in Echtzeit-Übersetzungsszenarien hinterher – mit einer durchschnittlichen Verzögerung von fast 1 Sekunde pro Satz. Das ist eine große Lücke für Apps, die auf sofortige Ergebnisse angewiesen sind.

Wir berechnen den BLEU-Score ihrer Übersetzungen im Vergleich zu menschlichen Übersetzungen und analysieren dabei verschiedene Aspekte wie die Zielsprache und die Länge des Satzes in der Ausgangssprache. 

Zusätzlich messen wir die Antwortzeit dieser Übersetzungs-APIs, da dies eine wichtige Funktion für Anwendungen ist, die Echtzeitübersetzungen erfordern, wie Reise-Apps und Übersetzungsagenturen.

Also, wenn es darum geht, die beste Übersetzungs-API auszuwählen, geht es nicht nur darum, wer die meisten Sprachen Support bietet. Es geht darum, das richtige Gleichgewicht zwischen Qualität, Geschwindigkeit und Kontext zu finden.

Hier ist eine Zusammenfassung unserer Schlüssel-Funde

  • DeepL und Amazon Translate lieferten insgesamt die höchste Übersetzungsqualität, wobei DeepL in europäischen Sprachen führend war und Amazon in asiatischen Sprachen wie Japanisch und Chinesisch besser abschnitt.
  • Es gibt keine Einheitslösung: Die Leistung variiert je nach Sprachpaar, Satzlänge und Übersetzungskontext.
  • Längere Sätze führen tendenziell zu besseren BLEU-Ergebnissen und zwar über alle Engines hinweg – ein konsistentes Muster, das in jeder getesteten Sprache zu beobachten ist.
  • Microsoft Übersetzer hatte die schnellste Reaktionszeit bei Einzelabschnittsübersetzungen (Median: 0,09 Sekunden), während DeepL am langsamsten war (fast 1 Sekunde pro Segment).
  • Im Massenübersetzungsmodus boten Google und Microsoft Geschwindigkeiten von unter einer Sekunde pro Segment, während Amazon aufgrund fehlendem echten Batch-Support unterdurchschnittlich abschnitt.
  • Die BLEU-Ergebnisse zeigten statistisch signifikante Unterschiede zwischen den Motoren, die durch Friedman- und Nemenyi-Tests bestätigt wurden – was die Ergebnisse über anekdotische Beweise hinaus bestätigte.
  • Skalierbarkeit ist nicht gleich: Die Reaktionszeit von DeepL nimmt mit wachsendem Segmentvolumen stärker zu, was bei Anwendungsfällen mit hohem Volumen ein limitierender Faktor sein kann.
  • Alle Engines schnitten gut genug für Echtzeitanwendungen ab, mit Ausnahme von DeepL im Single-Call-Modus und Amazon in Bulk-Szenarien.
  • Brasilianisches Portugiesisch hatte die höchste Anzahl an ausgewerteten Segmenten, was es zu einem der robustesten Sprachpaare in der Studie macht.
  • Datenvielfalt ist wichtig: Der verwendete Datensatz deckte Bereiche wie Gesundheit, Recht und IT ab und simulierte reale Übersetzungsanforderungen mit hoher Zuverlässigkeit.

Was sind maschinelle Übersetzung-APIs?

Maschinelle Übersetzung APIs sind cloudbasierte Dienste, die Entwicklern und Plattformen ermöglichen, Text automatisch zwischen Sprachen zu übersetzen, indem sie maschinelle Lernmodelle verwenden.

Anstatt ihre eigenen Übersetzungsmaschinen von Grund auf neu zu entwickeln, können Unternehmen diese APIs in Websites, Apps oder interne Systeme integrieren, um schnellen, skalierbaren und mehrsprachigen Inhalt bereitzustellen.

Einige der beliebtesten maschinellen Übersetzung-APIs sind:

  • Google Translate API – Deckt über 100 Sprachen ab und lässt sich problemlos in Google Cloud integrieren.
  • Amazon Translate – Entwickelt für groß angelegte, schnelle Übersetzungen mit starker Leistung in asiatischen Sprachen.
  • Microsoft Übersetzer – Eine kostengünstige Option, die über 90 Sprachen unterstützt und ideal für Echtzeitanwendungen ist.
  • DeepL API – Bekannt für seine Übersetzungen mit hoher Qualität in europäischen Sprachen, insbesondere wenn es um Flüssigkeit und Nuancen geht.

Diese APIs werden häufig in Branchen wie E-Commerce, Reisen, Recht, Gesundheitswesen, Kundensupport und Lokalisierung eingesetzt, wo eine genaue, Echtzeit-Übersetzung das Benutzererlebnis und die betriebliche Effizienz drastisch verbessern kann.

Aber nicht alle APIs werden gleich erstellt — und die Wahl der richtigen hängt von Ihren spezifischen Bedürfnissen ab: Sprachpaare, Geschwindigkeit, Kosten und natürlich Übersetzungsqualität.

Maschinelle Übersetzungs-Engines

Für diese Bewertung haben wir vier kommerzielle maschinelle Übersetzungs-Engines ausgewählt, die Support für alle Sprachpaare in unserem Datensatz bieten. Im Folgenden beschreiben wir sie mit den zugehörigen Kostenwerten ab Januar 2022.

  • Amazon Übersetzer: Entwickelt von Amazon, bietet es Support für maschinelle Übersetzung in mehr als 70 Sprachen. Die Python-API ist vollständig in AWS-Services integriert und kostet 15 USD pro Million Zeichen.
  • DeepL: Es ist ein Unternehmen, das sich auf maschinelle Übersetzung konzentriert. Seine API bietet Support für 26 Sprachen, zu einem Preis von 25 USD pro Million Zeichen. Wir haben die Python-API verwendet, die Übersetzungen aus und ins Englische ermöglicht.
  • Google Übersetzer: Es bietet maschinelle Übersetzung Support für über 100 Sprachen und ist die Engine mit der größten Reichweite in Bezug auf unterstützte Sprachen. Es bietet auch eine Python-API, die in alle Google Cloud-Dienste integriert ist. Die Übersetzungspreise betragen 20 USD pro eine Million Zeichen.
  • Microsoft Übersetzer: Es handelt sich um den maschinellen Übersetzungsdienst von Microsoft zu einem Preis von 10 USD pro Million Zeichen, was die niedrigsten Preise unter allen bewerteten MT-Engines darstellt. Dieser Motor bietet Support für fast 90 Sprachen.

Die ausgewählten MT-Engines sind alle in der Lage, ein einzelnes Segment über ihre jeweilige API zu übersetzen, und mit Ausnahme von Amazon Translate können sie auch auf einen Bulk-Aufruf reagieren, wenn eine Liste von Segmenten auf einmal eingereicht und zurückgegeben wird.

Um mit der Mengenbeschränkung von Amazon Translate umzugehen, haben wir eine kleine Code-Optimierung in dem einzelnen Aufruf vorgenommen, um die Notwendigkeit zu beseitigen, bei jeder Übersetzung eine Verbindung zur API herzustellen. Dies ist zwar keine Massenübersetzung, hat jedoch dazu beigetragen, die Lücke zwischen dieser und den anderen Engines mit Massenübersetzungs-Support zu verringern.

Obwohl alle erwähnten MT-Engines geeignet waren, ihre Modelle mit Paralleltexten oder einem Glossar für spezifische Begriffe zu optimieren, haben wir uns entschieden, diese Optionen für diese Bewertung beiseite zu lassen.

Wir versuchen auch, andere MT-Engines zu evaluieren (z. B. Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), aber wir konnten sie aus einem der folgenden Gründe nicht verwenden: 

  • API nicht verfügbar
  • Mangel an Dokumentation,
  • Kein Support für alle Zielsprache.

Metriken

Wir bewerten die Übersetzungsqualität der Engines anhand des BLEU-Scores (Papineni et al., 2002). Wir verwendeten den Friedman-Test (Friedman, 1940), um die Ergebnisse verschiedener Motoren zu vergleichen, und den Post-hoc-Nemenyi-Test (Nemenyi, 1963), um statistisch signifikante Unterschiede zwischen einzelnen MT-Motoren zu überprüfen.Um die Antwortzeit der APIs zu berechnen, haben wir eine Stichprobe von 100 Segmenten unseres Datensatzes ausgewählt, wobei die Verteilung der Intervalle der Segmentgrößen berücksichtigt wurde (Abbildung 2), und sie in jeder Engine vom Englischen ins Portugiesische übersetzt.

Wir haben die Engines mit den ausgewählten Sätzen eine Woche lang einmal täglich aufgerufen, um die Methoden der APIs zu bewerten: single und bulk. Wir haben nicht den gesamten Datensatz verwendet und nur in eine Zielsprache übersetzt, um die Antwortzeit zu bewerten, da es finanziell kostspielig wäre, die Engines eine Woche lang mit 200k Segmenten in sieben Sprachen zu belasten.

Experimentelle Ergebnisse

In diesem Abschnitt präsentieren wir die Ergebnisse unserer Untersuchung über die Leistung der in Abschnitt 2 beschriebenen maschinellen Übersetzungs-Engines.

Qualitätsbewertung

Die folgende Tabelle zeigt den durchschnittlichen BLEU-Score der vier Engines für jede Zielsprache. Für alle Sprachen waren die p-Werte des Friedman-Tests kleiner als das Signifikanzniveau (0,05), was bedeutet, dass es statistisch signifikante Unterschiede in den Ergebnissen der Motoren gibt. Darüber hinaus unterschieden sich die Leistungen der Engines mit den besten Werten für jede Sprache statistisch von den anderen, wie der Post-hoc-Nemenyi-Test ergab, wobei die p-Werte unter dem Signifikanzniveau von 0,05 lagen. Amazon und DeepL erzielten die besten Gesamtergebnisse mit den höchsten Punktzahlen in 4 Zielsprachen. Google zog auf Spanisch mit DeepL und auf Chinesisch mit Amazon gleich, während die Microsoft-Übersetzungsmaschine in keiner Sprache eine MT-Engine übertraf.

Die folgende Abbildung zeigt die BLEU-Bewertungsverteilung für verschiedene Segmentgrößen in jeder Zielsprache. Ein häufiger Trend in diesen Diagrammen ist, dass der BLEU-Wert umso besser ist, je länger ein Satz ist.

So lagen die Medianwerte aller MT-Engines für Deutsch als Zielsprache bei etwa 0,6 für Segmente mit einer Größe zwischen 1 und 10 und nahe bei 0,7 für Segmente mit mehr als 40 Wörtern.

Japanisch ist die einzige Ausnahme: Die Segmentgröße beeinflusste nicht die Übersetzungsqualität von Amazon und DeepL, aber sie beeinflusste die Qualität von Microsoft (mittlerer BLUE-Score von 0,61 für das 1-10-Intervall und 0,58 für das 40-Intervall) und Google (mittlerer BLUE-Score von 0,62 für das 1-10-Intervall und 0,6 für das 40-Intervall).

Auswertung der Übersetzungszeit

Die Verteilung der Übersetzungszeit pro Segment für jede MT-Engine – beim Senden eines Segments auf einmal (einzeln) und von 100 Segmenten auf einmal (Bulk) – kann im Folgenden analysiert werden.

Im einzelnen Szenario lieferte Microsoft die schnellste Übersetzung (Median von 0,09 Sekunden pro Segment). Amazon und Google waren etwa doppelt so langsam (Mediane nahe 0,2 Sekunden), und DeepL war am langsamsten (Median von 0,96 Sekunden pro Segment), fast zehnmal höher als Microsoft.

Das erste, was bei der Verwendung des Massenaufrufs der APIs im Vergleich zum einzelnen Aufruf zu beachten ist, ist, dass die Übersetzungszeit pro Segment stark verkürzt wurde. Bei DeepL zum Beispiel sank die mittlere Übersetzungszeit pro Segment von 0,95 Sekunden bei der Einzelausführung auf 0,02 Sekunden bei der Massenausführung. 

Diese Ergebnisse zeigen deutlich, dass die Massenoperation viel effizienter ist als das Senden einzelner Segmente zur Übersetzung. In Bezug auf die einzelnen Leistungen der Engines erzielten Microsoft und Google die niedrigsten Übersetzungszeiten (Median von 0,003 bzw. 0,002 Sekunden pro Segment), während die höchste Übersetzungszeit von Amazon (Median von 0,09 Sekunden) erzielt wurde. 

Wir glauben, dass der Grund für diese schlechte Leistung von Amazon darin liegt, dass es keinen echten Massenaufruf bietet, den wir in unseren Experimenten, wie oben erwähnt, annähern mussten.

Die evaluierten MT-Engines wiesen daher eine geringe Übersetzungszeit pro Segment auf, wodurch sie sich für Echtzeit-Übersetzungsanwendungen eignen. Die einzige Ausnahme war DeepL in dem einzigen Szenario, in dem die mediane Übersetzungszeit eines einzelnen Satzes nahe 1 Sekunde lag.

Um die Skalierbarkeit der Engines zu analysieren, stellen wir im Folgenden die Reaktionszeit der MT-Engines dar, wenn wir die Anzahl der Segmente variieren. In allen Kurven wächst die Zeit linear mit der Anzahl der Segmente.

Allerdings ist der lineare Koeffizient einiger Motoren viel kleiner als der der anderen. Zum Beispiel hat DeepL den höchsten Koeffizienten im Einzelszenario und Amazon den höchsten im Massenszenario, was bedeutet, dass sie in jedem jeweiligen Szenario nicht so gut skalieren wie ihre Konkurrenten.

Fazit

In diesem Artikel haben wir eine Bewertung von vier maschinellen Übersetzungs-Engines hinsichtlich ihrer Qualität und Reaktionszeit vorgestellt. Unsere Bewertung zeigte, dass die Qualität der Motoren ähnlich ist, aber Amazon und Deepl als Spitzenreiter hervorgehen. Was die Antwortzeit betrifft, so zeigten die Engines insgesamt eine gute Leistung, mit Ausnahme von DeepL, wenn jeweils ein Segment gesendet wurde, und Amazon im Batch-Aufruf.

Experimenteller Aufbau

In diesem Abschnitt stellen wir den Aufbau vor, den wir bei unserer experimentellen Auswertung verwendet haben. Genauer gesagt beschreiben wir den Ground-Truth-Datensatz, die maschinellen Übersetzungs-Engines und die Metriken, die zur Bewertung der Engines verwendet werden.

Daten

Der Datensatz, der in dieser Bewertung verwendet wird und aus 13 Übersetzungsspeichern von verschiedenen Unternehmen stammt, die von professionellen Übersetzern erstellt wurden, hat Englisch als Ausgangssprache und sieben Zielsprachen: 

  • Deutsch (de)
  • Spanisch (sp)
  • Französisch (fr)
  • Italienisch (it)
  • Japanisch (ja)
  • Brasilianisches Portugiesisch (pt)
  • Chinesisch (zh)

Jeder Satz in Englisch hat mindestens ein entsprechendes Paar mit einer der genannten Zielsprachen. Der Datensatz enthält insgesamt 224.223 Segmente in englischer Sprache und 315.073 Paare.

Die folgende Abbildung zeigt die Verteilung der Anzahl der Segmente für jede Zielsprache. Brasilianisches Portugiesisch hat die höchste Anzahl von Segmenten (nahe 60k), während Japanisch und Spanisch mit etwa 20k Segmenten die niedrigste Anzahl haben. Ein wichtiges Merkmal dieses Datensatzes für diese Evaluation ist, dass er eine große Vielfalt an Themen abdeckt.

Die folgende Abbildung zeigt eine Wortwolke der englischen Segmente. Wie man sehen kann, gibt es Inhalt im Zusammenhang mit Gesundheit, Recht, Informationstechnologie usw.

Der Datensatz ist mit einem Textsegment in der Ausgangssprache und einer Referenzliste mit den Übersetzungen in den Zielsprachen strukturiert. Diese Referenzlisten haben mindestens eine Übersetzung, die mit dem Originaltext verknüpft ist, obwohl sie mehr als eine haben können, da ein Segment mehr als eine mögliche Übersetzung haben kann.

Um unsere Analyse zu vereinfachen, haben wir die Segmente in Bereiche der Größe 10 gruppiert, wie in der unten stehenden Abbildung gezeigt, um den Einfluss der Segmentgröße auf die Qualität der Übersetzung der Motoren zu bewerten.

Dieses Papier ist für…

Jedes Unternehmen, das plant, irgendeine Art von Übersetzungen zu implementieren, muss dieses Papier lesen, weil wir die verschiedenen Vor- und Nachteile jedes Maschinellen Übersetzungswerkzeugs in Bezug auf Qualität und Reaktionszeit darlegen. Dieser ausführliche Inhalt richtet sich an Fachleute, die aktiv an der Verbesserung ihrer übersetzungsbezogenen Produkte und Dienstleistungen beteiligt sind, wie zum Beispiel:

  • Produktmanager,
  • Projektmanager,
  • Lokalisierungsmanager,
  • Engineering-Leiter,
  • Übersetzer,
  • Übersetzungsagenturen.

Dieses Papier wurde von Bureau Works-Ingenieuren geschrieben.

Bureau Works bietet umfassende interne Übersetzungsdienstleistungen auf unserer Lokalisierungsplattform, die detaillierte Berichterstattung, sich entwickelnde Übersetzungsspeicher und automatisierte Lokalisierung ermöglicht.

Am wichtigsten ist, dass wir die geschäftlichen und technischen Elemente der Lokalisierung unter einem Dach vereinen.

Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.

Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco

3685 Mt DiabLo BLvd, Lafayette, CA, Vereinigte Staaten, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasilien, Rua Dom ManueL de Medeiros, s/n, Recife, PE, Brasilien

3685 Mt DiabLo BLvd, Lafayette, CA, Vereinigte Staaten, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasilien, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasilien

{gabrieL.meLo, fiLipe, henrique}@bureauworks.com Luciano@cin.ufpe.br, vaniLson.buregio@ufrpe.br

Nutzen Sie das Potenzial der Glokalisierung mit unserem Translation-Management-System.

Nutzen Sie das Potenzial der

mit unserem Translation-Management-System.

Loslegen
Übersetzen Sie doppelt so schnell und tadellos
Fangen Sie an
Unsere Online-Veranstaltungen!
Webinare

Testen Sie Bureau Works 14 Tage lang kostenlos

ChatGPT-Integration
Jetzt loslegen
Die ersten 14 Tage sind kostenlos
Kostenloser Basis-Support