Quelles sont les meilleures API de traduction automatique ?

Une étude de référence complète des meilleures API de traduction automatique—Google, Amazon, DeepL & Microsoft. Découvrez le meilleur interprète.
Table des matières

Les API de traduction sont partout. Mais tous n’offrent pas le même niveau de performance. 

Une étude récente a montré qu’il n’y a pas de gagnant unique pour tous les langages, et que les moteurs commerciaux ont des performances supérieures à celles des moteurs open source.

Cette étude comparative a testé les principaux acteurs — Google, Amazon, Microsoft et DeepL — en utilisant plus de 200 000 segments traduits par des humains dans sept langues, dont le portugais, le chinois et le japonais. 

DeepL et Amazon sont arrivés en tête, DeepL excellant dans les langues européennes et Amazon dominant dans les langues asiatiques.

Alors que la plupart des moteurs ont fourni des réponses rapides, DeepL a pris du retard dans les scénarios de traduction en temps réel, avec un délai médian de près de 1 seconde par phrase. C'est un écart majeur pour les applications qui dépendent de résultats instantanés.

Nous calculons le score BLEU de leurs traductions en comparaison avec les traductions humaines, en analysant différents aspects tels que la langue cible et la taille de la phrase dans la langue source. 

De plus, nous mesurons le temps de réponse de ces API de traduction, car c'est une fonctionnalité importante pour les applications qui nécessitent des traductions en temps réel, telles que les applications de voyage et les agences de traduction.

Donc, lorsqu'il s'agit de choisir la meilleure API de traduction, il ne s'agit pas seulement de savoir qui offre l'assistance pour le plus de langues. Il s'agit de trouver le bon équilibre entre la Qualité, la vitesse et le contexte.

Voici un résumé de nos Clé résultats

  • DeepL et Amazon Translate ont offert la meilleure Qualité de traduction globale, avec DeepL en tête pour les langues européennes et Amazon surpassant dans les langues asiatiques comme le japonais et le chinois.
  • Il n’existe pas de moteur unique : les performances varient en fonction de la paire de langues, de la longueur des phrases et du contexte de traduction.
  • Les phrases plus longues ont tendance à produire de meilleurs scores BLEU dans tous les moteurs - une tendance constante observée dans toutes les langues testées.
  • Microsoft Traducteur avait le temps de réponse le plus rapide dans les traductions à segment unique (médiane : 0,09 seconde), tandis que DeepL était le plus lent (près de 1 seconde par segment).
  • En mode de traduction en masse, Google et Microsoft ont offert des vitesses inférieures à la seconde par segment, tandis qu'Amazon a sous-performé en raison de son absence de véritable assistance par lots.
  • Les scores BLEU ont montré des différences statistiquement significatives entre les moteurs, confirmées par les tests de Friedman et de Nemenyi – validant les résultats au-delà des preuves anecdotiques.
  • L’évolutivité n’est pas égale : Le temps de réponse de DeepL augmente plus fortement à mesure que le volume des segments augmente, ce qui peut être un facteur limitant dans les cas d'utilisation à volume élevé.
  • Tous les moteurs ont fonctionné assez bien pour les applications en temps réel, à l’exception de DeepL en mode d’appel unique et d’Amazon dans des scénarios en vrac.
  • Le portugais brésilien avait le plus grand nombre de segments évalués, ce qui en fait l’une des paires de langues les plus robustes de l’étude.
  • La diversité des données est importante : l’ensemble de données utilisé couvrait des domaines tels que la santé, le droit et l’informatique, simulant des demandes de traduction réelles avec une grande fiabilité.

Qu'est-ce que les APIs de traduction automatique ?

Les APIs de traduction automatique sont des services basés sur le cloud qui permettent aux Développeurs et aux plateformes de traduire automatiquement du texte entre les langues en utilisant des modèles d'apprentissage automatique.

Au lieu de créer leurs propres moteurs de traduction à partir de zéro, les entreprises peuvent intégrer ces API dans des sites web, des Applications ou des systèmes internes pour fournir un Contenu rapide, évolutif et multilingue.

Certaines des API de traduction automatique les plus populaires incluent :

  • API Google Translate - Couvre plus de 100 langues et s’intègre facilement à Google Cloud.
  • Amazon Translate – Conçu pour une traduction rapide et à grande échelle, avec de solides performances dans les langues asiatiques.
  • Microsoft Traducteur – Une option économique offrant une assistance pour plus de 90 langues, idéale pour les applications en temps réel.
  • DeepL API – Connu pour ses traductions de haute Qualité dans les langues européennes, notamment en ce qui concerne la fluidité et la nuance.

Ces API sont largement utilisées dans des secteurs tels que le commerce électronique, le voyage, le juridique, la santé, l'assistance client et la localisation, où une traduction précise et en temps réel peut améliorer considérablement l'expérience utilisateur et l'efficacité opérationnelle.

Mais toutes les API ne sont pas créées égales — et choisir la bonne dépend de vos besoins spécifiques : paires de langues, vitesse, coût, et bien sûr, la qualité de traduction.

Moteurs de traduction automatique

Pour cette évaluation, nous avons sélectionné quatre moteurs de traduction automatique commerciaux qui offrent une assistance pour toutes les paires de langues de notre ensemble de données. Nous les décrivons ci-dessous avec leurs valeurs de coût associées en janvier 2022.

  • Amazon Translate : Développé par Amazon, il fournit une assistance pour la traduction automatique dans plus de 70 langues. Son API Python est entièrement intégrée aux services AWS, pour un coût de 15 USD par million de caractères.
  • DeepL : C'est une entreprise axée sur la traduction automatique. Son API offre une assistance pour 26 langues, au coût de 25 USD par million de caractères. Nous avons utilisé son API Python qui permet des traductions depuis et vers l'anglais.
  • Google Traduction : Il fournit une assistance de traduction automatique pour plus de 100 langues, étant le moteur avec la plus grande portée en ce qui concerne les langues prises en charge. Il offre également une API Python intégrée à tous les services Google Cloud. Le prix de la traduction est de 20 USD par million de caractères.
  • Microsoft Traducteur : Il s'agit du service de traduction automatique fourni par Microsoft au coût de 10 USD par million de caractères, étant le prix le plus bas parmi tous les moteurs de TA évalués. Ce moteur offre une assistance pour près de 90 langues.

Les moteurs de traduction automatique sélectionnés sont tous capables de traduire un seul segment via leur API respective, et à l'exception d'Amazon Translate, ils peuvent également répondre à un appel groupé, lorsqu'une liste de segments est soumise et retournée en une seule fois.

Pour gérer la limitation de volume d'Amazon Translate, nous avons effectué une petite optimisation de codage dans l'appel unique afin d'éliminer la nécessité d'établir une connexion à l'API à chaque traduction, ce qui n'est pas proche d'une traduction en masse mais a aidé à réduire l'écart entre cela et les autres moteurs avec assistance de traduction en masse.

Bien que tous les moteurs de TA mentionnés aient été adaptés pour ajuster leurs modèles avec des données parallèles ou un Glossaire pour des termes spécifiques, nous avons décidé de mettre ces options de côté pour cette évaluation.

Nous essayons également d'évaluer d'autres moteurs de traduction automatique (par exemple, Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), mais nous n'avons pas pu les utiliser pour l'une des raisons suivantes : 

  • Indisponibilité de l'API
  • Manque de documentation,
  • Pas d'assistance pour toutes les langues cibles.

Metrics

Nous évaluons la Qualité de la traduction des moteurs en utilisant le score BLEU (Papineni et al., 2002). Nous avons utilisé le test de Friedman (Friedman, 1940) pour comparer les scores de différents moteurs, et le test post hoc de Nemenyi (Nemenyi, 1963) pour vérifier les différences statistiquement significatives entre les moteurs de traduction automatique individuels.

Pour calculer le temps de réponse des API, nous avons sélectionné un échantillon de 100 segments de notre jeu de données, en respectant la distribution des intervalles de tailles de segments (Figure 2), et les avons traduits dans chaque moteur de l'anglais vers le portugais.

Nous avons sollicité les moteurs avec les phrases sélectionnées une fois par jour pendant une semaine pour évaluer les méthodes des API : individuelle et en masse. Nous n’avons pas utilisé l’ensemble des données et n’avons traduit que dans une seule langue cible pour évaluer le temps de réponse, car il serait financièrement coûteux de solliciter les moteurs pendant une semaine avec 200 000 segments en sept langues.

Résultats expérimentaux

Dans cette section, nous présentons les résultats de notre enquête sur la performance des moteurs de traduction automatique décrits dans la section 2.

Évaluation de la Qualité

Le tableau ci-dessous présente le score BLEU moyen des quatre moteurs pour chaque langue cible. Pour toutes les langues, les valeurs p du test de Friedman étaient inférieures au niveau de signification (0,05), ce qui signifie qu'il existe des différences statistiquement significatives dans les scores des moteurs. De plus, les moteurs avec les meilleurs scores pour chaque langue avaient des performances statistiquement différentes des autres, selon le test Nemenyi post hoc avec des valeurs p inférieures au niveau de signification de 0,05. Amazon et DeepL ont obtenu les meilleurs résultats globaux avec les scores les plus élevés dans 4 langues cibles. Google est à égalité avec DeepL en espagnol et avec Amazon en chinois, tandis que le moteur de traduction de Microsoft n’a surpassé aucun moteur de traduction automatique dans aucune langue.

La figure suivante présente la distribution des scores BLEU pour différentes tailles de segment dans chaque langue cible. Une tendance courante dans ces graphiques est que plus une phrase est longue, meilleur est le score BLEU.

Par exemple, les scores médians de tous les moteurs de traduction automatique pour l’allemand comme langue cible étaient d’environ 0,6 pour les segments dont la taille était comprise entre 1 et 10 et de près de 0,7 pour les segments de plus de 40 mots.

Le japonais est la seule exception : la taille du segment n'a pas affecté la Qualité de traduction d'Amazon et de DeepL, mais a affecté la Qualité de Microsoft (score BLUE médian de 0,61 pour l'intervalle 1-10 et de 0,58 pour l'intervalle 40-) et de Google (score BLUE médian de 0,62 pour l'intervalle 1-10 et de 0,6 pour l'intervalle 40-).

Évaluation du temps de traduction

La répartition du temps de traduction par segment pour chaque moteur de traduction automatique, lors de l’envoi d’un segment à la fois (unique) et de 100 segments à la fois (en bloc), peut être analysée ci-dessous.

Dans le scénario unique, Microsoft a fourni la traduction la plus rapide (médiane de 0,09 seconde par segment). Amazon et Google étaient environ deux fois plus lents (médianes proches de 0,2 seconde), et DeepL était le plus lent (médiane de 0,96 seconde par segment), presque dix fois plus élevé que Microsoft.

La première chose à remarquer lors de l’utilisation de l’appel en masse des API par rapport à l’appel unique est qu’il y a eu une grande réduction du temps de traduction par segment. Pour DeepL, par exemple, le temps médian de traduction par segment est passé de 0,95 seconde, dans l’exécution unique, à 0,02 seconde dans l’exécution en bloc. 

Ces résultats montrent clairement que l’opération en bloc est beaucoup plus efficace que l’envoi individuel de segments pour la traduction. En ce qui concerne les performances individuelles des moteurs, Microsoft et Google ont obtenu les temps de traduction les plus bas (médiane de 0,003 et 0,002 seconde par segment, respectivement), tandis que le temps de traduction le plus élevé provenait d’Amazon (médiane de 0,09 seconde). 

Nous pensons que la raison de cette mauvaise performance d’Amazon est qu’il ne fournit pas un véritable appel en masse, que nous avons dû approximer dans nos expériences comme mentionné précédemment.

Les moteurs de traduction automatique évalués présentaient donc un faible temps de traduction par segment, ce qui les rend adaptés aux applications de traduction en temps réel. La seule exception était DeepL dans le scénario unique dans lequel le temps de traduction médian d’une seule phrase était proche de 1 seconde.

Pour analyser l’évolutivité des moteurs, nous présentons ci-dessous le temps de réponse des moteurs MT lorsque nous faisons varier le nombre de segments. Dans toutes les courbes, le temps croît linéairement avec le nombre de segments.Cependant, le coefficient linéaire de certains moteurs est beaucoup plus petit que celui des autres. Par exemple, DeepL a le coefficient le plus élevé dans le scénario unique et Amazon le plus élevé dans le scénario en vrac, ce qui signifie qu'ils ne s'adaptent pas aussi bien que leurs concurrents dans chaque scénario respectif.

Conclusion

Dans cet article, nous avons présenté une évaluation de quatre moteurs de traduction automatique en ce qui concerne leur Qualité et leur temps de réponse. Notre évaluation a montré que la Qualité des moteurs est similaire, mais qu'Amazon et Deepl sont les meilleurs performeurs. En ce qui concerne le temps de réponse, dans l’ensemble, les moteurs ont présenté de bonnes performances, à l’exception de DeepL, lors de l’envoi d’un segment à la fois, et d’Amazon dans l’appel par lots.

Configuration expérimentale

Dans cette section, nous présentons la configuration que nous avons utilisée dans notre évaluation expérimentale. Plus précisément, nous décrivons le jeu de données de vérité terrain, les moteurs de traduction automatique et les métriques utilisées pour évaluer les moteurs.

Données

Le jeu de données utilisé dans cette évaluation, provenant de 13 mémoires de traduction de différentes entreprises générées par des Traducteurs professionnels, a l'anglais comme langue source et sept langues cibles : 

  • Allemand (de)
  • Espagnol (sp)
  • Français (fr)
  • Italien (it)
  • Japonais (ja)
  • Portugais brésilien (pt)
  • Chinois (zh)

Chaque phrase en anglais a au moins une paire correspondante avec l'une des langues cibles mentionnées. Il y a un total de 224 223 segments en anglais dans l’ensemble de données et 315 073 paires.

La figure ci-dessous présente la répartition du nombre de segments pour chaque langue cible. Le portugais brésilien a le plus grand nombre de segments (près de 60k), tandis que le japonais et l'espagnol ont le plus petit nombre, environ 20k segments. Une caractéristique importante de cet ensemble de données pour cette évaluation est qu’il couvre une grande diversité de sujets.

La figure suivante montre un nuage de mots des segments anglais. Comme on peut le voir, il y a du Contenu lié à la santé, au droit, à la technologie de l'information, etc.

L’ensemble de données est structuré avec un segment de texte dans la langue source et une liste de références avec les traductions dans les langues cibles. Ces listes de références ont au moins une traduction associée au texte original, bien qu'elles puissent en avoir plusieurs, car un segment peut avoir plus d'une traduction possible.

Pour simplifier notre analyse, nous avons regroupé les segments en intervalles de taille 10, comme indiqué dans la figure ci-dessous, afin d'évaluer l'impact de la taille des segments sur la Qualité de la traduction des moteurs.

Ce document est destiné à…

Chaque entreprise qui envisage de mettre en œuvre n'importe quel type de traductions doit lire ce document car nous décrivons les divers avantages et inconvénients de chaque outil de traduction automatique en termes de Qualité et de temps de réponse. Ce Contenu approfondi est destiné aux professionnels qui sont activement impliqués dans l'amélioration de leurs produits et services liés à la traduction, tels que :

  • Responsables de produit,
  • chefs de projet,
  • Responsables des localisations,
  • Chefs d'ingénierie,
  • Traducteurs,
  • Agences de traduction.

Ce document a été rédigé par les ingénieurs de Bureau Works.

Bureau Works offre des services de traduction complets en interne sur notre plateforme de localisation qui permet des rapports détaillés, une mémoire de traduction évolutive et une localisation automatisée.

Plus important encore, nous combinons les éléments commerciaux et techniques de la localisation sous un même toit.

Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.

Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco

3685 Mt DiabLo BLvd, Lafayette, CA, États-Unis, Av. Prof. Moraes Rego, 1235, Recife, PE, Brésil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brésil

3685 Mt Diablo Blvd, Lafayette, CA, États-Unis, Av. Prof. Moraes Rego, 1235, Recife, PE, Brésil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brésil

{gabrieL.meLo, fiLipe, henrique}@bureauworks.com Luciano@cin.ufpe.br, vaniLson.buregio@ufrpe.br

Libérez la puissance de la glocalisation avec notre système de gestion de traduction.

Libérez la puissance de la

stème de gestion de traduction.

Commencer
Traduisez deux fois plus vite et impeccablement
Commencez
Nos événements en ligne !
Webinaires

Essayez Bureau Works gratuitement pendant 14 jours

Intégration de ChatGPT
Commencer maintenant
Les 14 premiers jours sont gratuits
Assistance de base gratuite