Las API de traducción están en todas partes. Pero no todos ofrecen el mismo nivel de rendimiento.
Un estudio reciente mostró que no hay un único ganador para todos los idiomas, y los motores comerciales tienen un rendimiento superior en comparación con los de código abierto.
Este estudio de referencia puso a prueba a los principales actores — Google, Amazon, Microsoft y DeepL — utilizando más de 200.000 segmentos traducidos por humanos en siete idiomas, incluidos el portugués, el chino y el japonés.
DeepL y Amazon salieron victoriosos, con DeepL sobresaliendo en los idiomas europeos y Amazon liderando en los asiáticos.
Si bien la mayoría de los motores ofrecían respuestas rápidas, DeepL se quedó atrás en los escenarios de traducción en tiempo real, con un retraso medio de casi 1 segundo por frase. Esa es una brecha importante para aplicaciones que dependen de resultados instantáneos.
Calculamos el puntaje BLEU de sus traducciones en comparación con traducciones humanas, analizando diferentes aspectos como el idioma de destino y el tamaño de la oración en el idioma fuente.
Además, medimos el tiempo de respuesta de esas APIs de traducción, ya que esta es una característica importante para aplicaciones que requieren traducciones en tiempo real, como aplicaciones de viaje y agencias de traducción.

Entonces, cuando se trata de elegir la mejor API de traducción, no se trata solo de quién ofrece soporte para más idiomas. Se trata de encontrar el equilibrio adecuado entre calidad, velocidad y contexto.
Aquí hay un resumen de nuestros hallazgos clave
- DeepL y Amazon Translate ofrecieron la calidad de traducción más alta en general, con DeepL liderando en idiomas europeos y Amazon superando en idiomas asiáticos como el japonés y el chino.
- No existe un motor único para todos: el rendimiento varía según el par de idiomas, la longitud de la oración y el contexto de traducción.
- Las oraciones más largas tienden a producir mejores puntuaciones BLEU en todos los motores, un patrón consistente observado en todos los idiomas evaluados.
- Microsoft traductor tuvo el tiempo de respuesta más rápido en traducciones de un solo segmento (mediana: 0,09 segundos), mientras que DeepL fue el más lento (cerca de 1 segundo por segmento).
- En modo de traducción masiva, Google y Microsoft ofrecieron velocidades de menos de un segundo por segmento, mientras que Amazon tuvo un rendimiento inferior debido a su falta de verdadero soporte por lotes.
- Las puntuaciones de BLEU mostraron diferencias estadísticamente significativas entre los motores, confirmadas por las pruebas de Friedman y Nemenyi, validando los resultados más allá de la evidencia anecdótica.
- La escalabilidad no es igual: El tiempo de respuesta de DeepL aumenta más bruscamente a medida que crece el volumen del segmento, lo que puede ser un factor limitante en casos de uso de gran volumen.
- Todos los motores funcionaron lo suficientemente bien para aplicaciones en tiempo real, con la excepción de DeepL en modo de llamada única y Amazon en escenarios masivos.
- El portugués brasileño tuvo el mayor número de segmentos evaluados, lo que lo convierte en uno de los pares lingüísticos más robustos del estudio.
- La diversidad de datos es importante: el conjunto de datos utilizado cubrió dominios como la salud, el derecho y la informática, simulando las demandas de traducción del mundo real con alta fiabilidad.
¿Qué son las APIs de Traducción automática?
Las APIs de Traducción automática son servicios basados en la nube que permiten a los desarrolladores y plataformas traducir automáticamente texto entre idiomas utilizando modelos de aprendizaje automático.
En lugar de construir sus propios motores de traducción desde cero, las empresas pueden integrar estas API en sitios web, aplicaciones o sistemas internos para proporcionar contenido rápido, escalable y multilingüe.
Algunas de las API de Traducción automática más populares incluyen:
- API de Google Translate – Cubre más de 100 idiomas y se integra fácilmente con Google Cloud.
- Amazon Translate – Diseñado para traducciones rápidas y a gran escala, con un gran rendimiento en idiomas asiáticos.
- Microsoft traductor – Una opción económica con soporte para más de 90 idiomas, ideal para aplicaciones en tiempo real.
- DeepL API – Conocido por sus traducciones de alta calidad en idiomas europeos, especialmente en lo que respecta a la fluidez y el matiz.
Estas API se utilizan ampliamente en industrias como el comercio electrónico, los viajes, el ámbito legal, la salud, el soporte al cliente y la localización, donde la traducción precisa y en tiempo real puede mejorar drásticamente la experiencia del usuario y la eficiencia operativa.
Pero no todas las API son iguales, y elegir la correcta depende de tus necesidades específicas: pares de idiomas, velocidad, costo y, por supuesto, calidad de traducción.
Motores de Traducción Automática
Para esta evaluación, seleccionamos cuatro motores de traducción automática comerciales que ofrecen soporte para todos los pares de idiomas en nuestro conjunto de datos. A continuación, los describimos con sus valores de costo asociados a enero de 2022.
- Amazon Translate: Desarrollado por Amazon, proporciona soporte para Traducción automática en más de 70 idiomas. Su API de Python está totalmente integrada con los servicios de AWS, a un costo de USD 15 por millón de caracteres.
- DeepL: Es una empresa enfocada en la Traducción automática. Su API ofrece soporte para 26 idiomas, a un costo de USD 25 por millón de caracteres. Utilizamos su API de Python que permite traducciones desde y hacia el inglés.
- Traductor de Google: Ofrece soporte de Traducción automática para más de 100 idiomas, siendo el motor con el mayor alcance en cuanto a idiomas soportados. También ofrece una API de Python integrada con todos los servicios de Google Cloud. El precios de traducción es USD 20 por millón de caracteres.
- Microsoft traductor: Es el servicio de Traducción automática proporcionado por Microsoft a un costo de USD 10 por millón de caracteres, siendo el Precios más bajo entre todos los motores de MT evaluados. Este motor ofrece soporte para casi 90 idiomas.
Los motores de traducción automática seleccionados son todos capaces de traducir un solo segmento a través de su respectiva API, y excepto por Amazon Translate, también pueden responder a una llamada masiva, cuando se enviar una lista de segmentos y se devuelven de una vez.
Para lidiar con la limitación de volumen de Amazon Translate, hicimos una pequeña optimización de codificación en la llamada única para eliminar la necesidad de establecer una conexión con la API en cada traducción, lo cual no es cercano a una traducción en volumen, pero ayudó a reducir la brecha entre este y los otros motores con soporte de traducción en volumen.
Aunque todos los motores de MT mencionados eran adecuados para ajustar sus modelos con datos paralelos o un glosario para términos específicos, decidimos dejar estas opciones de lado para esta evaluación.
También intentamos evaluar otros motores de MT (por ejemplo, Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), pero no pudimos usarlos por una de las siguientes razones:
- Falta de disponibilidad de API
- Falta de documentación,
- No hay soporte para todos los idiomas de destino.
Métricas
Evaluamos la calidad de la traducción de los motores utilizando la puntuación BLEU (Papineni et al., 2002). Utilizamos la prueba de Friedman (Friedman, 1940) para comparar las puntuaciones de diferentes motores, y la prueba de Nemenyi post hoc (Nemenyi, 1963) para verificar las diferencias estadísticamente significativas entre los motores MT individuales.
Para calcular el tiempo de respuesta de las API, seleccionamos una muestra de 100 segmentos de nuestro conjunto de datos, respetando la distribución de intervalos de tamaños de segmentos (Figura 2), y los tradujimos en cada motor del inglés al portugués.
Pulsamos los motores con las frases seleccionadas una vez al día durante una semana para evaluar los métodos de las API: individuales y masivos. No utilizamos todo el conjunto de datos y solo tradujimos a un idioma de destino para evaluar el tiempo de respuesta, porque sería financieramente costoso utilizar los motores durante una semana con 200k segmentos en siete idiomas.

Resultados Experimentales
En esta sección, presentamos los resultados de nuestra investigación sobre el rendimiento de los motores de Traducción automática descritos en la Sección 2.
Evaluación de Calidad
La tabla a continuación presenta la puntuación media BLEU de los cuatro motores en cada idioma de destino. Para todos los idiomas, los valores p de la prueba de Friedman fueron menores que el nivel de significación (0,05), lo que significa que existen diferencias estadísticamente significativas en las puntuaciones de los motores. Además, los motores con mejores puntuaciones para cada idioma tuvieron un rendimiento estadísticamente diferente al de los otros, según la prueba post hoc de Nemenyi con valores p inferiores al nivel de significancia de 0,05. Amazon y DeepL obtuvieron los mejores resultados generales con las puntuaciones más altas en 4 idiomas de destino. Google empató con DeepL en español y con Amazon en chino, mientras que el motor de traducción de Microsoft no superó a ningún motor de traducción automática en ningún idioma.

En la siguiente figura se presenta la distribución de la puntuación BLEU para diferentes tamaños de segmento en cada idioma de destino. Una tendencia común en estas tramas es que cuanto más larga es una frase, mejor es la puntuación BLEU.

Por ejemplo, las puntuaciones medias de todos los motores de traducción automática para el alemán como idioma de destino fueron de alrededor de 0,6 para los segmentos con un tamaño entre 1 y 10 y cerca de 0,7 para los segmentos de más de 40 palabras.

El japonés es la única excepción: el tamaño del segmento no afectó la calidad de la traducción de Amazon y DeepL, pero sí afectó la calidad de Microsoft (puntuación BLUE mediana de 0.61 para el intervalo de 1-10 y 0.58 para el intervalo de 40-) y Google (puntuación BLUE mediana de 0.62 para el intervalo de 1-10 y 0.6 para el intervalo de 40-).





Evaluación del tiempo de traducción
La distribución del tiempo de traducción por segmento para cada motor de traducción automática, cuando se envía un segmento a la vez (único) y 100 segmentos a la vez (a granel), se puede analizar a continuación.

En el escenario único, Microsoft proporcionó la traducción más rápida (mediana de 0,09 segundos por segmento). Amazon y Google fueron alrededor de dos veces más lentos (medianas cercanas a 0,2 segundos), y DeepL fue el más lento (mediana de 0,96 segundos por segmento), casi diez veces más que Microsoft.

Lo primero que hay que notar al usar la llamada masiva de las API en comparación con la única es que hubo una gran reducción en el tiempo de traducción por segmento. En el caso de DeepL, por ejemplo, el tiempo medio de traducción por segmento disminuyó de 0,95 segundos, en la ejecución única, a 0,02 segundos en la ejecución masiva.
Estos resultados muestran claramente que la operación masiva es mucho más eficiente que enviar segmentos individualmente para su traducción. En cuanto a los rendimientos individuales de los motores, Microsoft y Google obtuvieron los tiempos de traducción más bajos (mediana de 0,003 y 0,002 segundos por segmento, respectivamente), mientras que el tiempo de traducción más alto fue de Amazon (mediana de 0,09 segundos).
Creemos que la razón de este bajo rendimiento de Amazon es que no proporciona una llamada masiva real, lo cual tuvimos que aproximar en nuestros experimentos como se mencionó anteriormente.

Los motores de TA evaluados, por lo tanto, presentaron un bajo tiempo de traducción por segmento, lo que los hace adecuados para aplicaciones de traducción en tiempo real. La única excepción fue DeepL en el único escenario en el que el tiempo medio de traducción de una sola frase fue cercano a 1 segundo.

Para analizar la escalabilidad de los motores, presentamos a continuación el tiempo de respuesta de los motores MT cuando variamos el número de segmentos. En todas las curvas, el tiempo crece linealmente con el número de segmentos.
Sin embargo, el coeficiente lineal de algunos de los motores es mucho menor que el de otros. Por ejemplo, DeepL tiene el coeficiente más alto en el escenario único y Amazon el más alto en el escenario masivo, lo que significa que no escalan tan bien como sus competidores en cada escenario respectivo.

Conclusión
En este documento, presentamos una evaluación de cuatro motores de Traducción automática con respecto a su calidad y tiempo de respuesta. Nuestra evaluación mostró que la calidad de los motores es similar, pero Amazon y Deepl son los mejores desempeñadores. En cuanto al tiempo de respuesta, en general los motores presentaron un buen rendimiento, a excepción de DeepL, al enviar un segmento a la vez, y Amazon en la llamada por lotes.
Configuración experimental
En esta sección, presentamos la configuración que utilizamos en nuestra evaluación experimental. Más específicamente, describimos el conjunto de datos de referencia, los motores de Traducción automática y las métricas utilizadas para evaluar los motores.
Datos

El conjunto de datos utilizado en esta evaluación, originado de 13 memorias de traducción de diferentes empresas generadas por traductores profesionales, tiene el inglés como idioma fuente y siete idiomas de destino:
- Alemán (de)
- Español (sp)
- Francés (fr)
- Italiano (it)
- Japonés (ja)
- Portugués brasileño (pt)
- Chino (zh)
Cada oración en inglés tiene al menos un par correspondiente con uno de los idiomas de destino mencionados. Hay un total de 224.223 segmentos en inglés en el conjunto de datos y 315.073 pares.
La figura a continuación presenta la distribución del número de segmentos para cada idioma de destino. El portugués brasileño tiene el mayor número de segmentos (cerca de 60k), mientras que el japonés y el español tienen el más bajo, alrededor de 20k segmentos. Una característica importante de este conjunto de datos para esta evaluación es que abarca una gran diversidad de temas.

La siguiente figura muestra una nube de palabras de los segmentos en inglés. Como se puede ver, hay contenido relacionado con la salud, el derecho, la tecnología de la información, etc.

El conjunto de datos está estructurado con un segmento de texto en el idioma de origen y una lista de referencias con las traducciones en los idiomas de destino. Estas listas de referencias tienen al menos una traducción asociada al texto original, aunque podrían tener más de una, ya que un segmento puede tener más de una traducción posible.
Para simplificar nuestro análisis, agrupamos los segmentos en rangos de tamaño 10, como se muestra en la figura a continuación, con el fin de evaluar el impacto del tamaño del segmento en la calidad de la traducción de los motores.

Este documento es para…
Cada empresa que planea implementar cualquier tipo de traducciones necesita leer este documento porque describimos las diversas ventajas y desventajas de cada Traducción automática herramienta en términos de calidad y tiempo de respuesta. Este contenido detallado está dirigido a profesionales que están activamente involucrados en la mejora de sus productos y servicios relacionados con la traducción, tales como:
- Gerentes de Producto,
- Gerentes de Proyecto,
- Gerentes de Localización,
- Líderes de Ingeniería,
- Traductores,
- Agencias de Traducción.
Este documento fue escrito por ingenieros de Bureau Works.
Bureau Works ofrece servicios de traducción internos integrales en nuestra plataforma de localización que permite informes detallados, memoria de traducción en evolución y localización automatizada.
Lo más importante es que combinamos los elementos comerciales y técnicos de la localización bajo un mismo techo.
Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.
Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco
3685 Mt DiabLo BLvd, Lafayette, CA, Estados Unidos, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasil
3685 Mt Diablo Blvd, Lafayette, CA, Estados Unidos, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasil
{gabrieL.meLo, fiLipe, henrique}@bureauworks.com Luciano@cin.ufpe.br, vaniLson.buregio@ufrpe.br