Quais são as melhores API's de Tradução de Máquina?

Um estudo completo de benchmark das melhores APIs de tradução de máquina—Google, Amazon, DeepL & Microsoft. Descubra o melhor desempenho.
Tabela de conteúdos

As APIs de tradução estão em toda parte. Mas nem todos oferecem o mesmo nível de desempenho. 

Um estudo recente mostrou que não há um único vencedor para todas as linguagens, e os mecanismos comerciais têm um desempenho superior em comparação com os de código aberto.

Este estudo de referência testou os principais players — Google, Amazon, Microsoft e DeepL — usando mais de 200.000 segmentos traduzidos por humanos em sete idiomas, incluindo português, chinês e japonês. 

DeepL e Amazon ficaram no topo, com o DeepL se destacando em idiomas europeus e a Amazon liderando em idiomas asiáticos.

Enquanto a maioria dos mecanismos fornecia respostas rápidas, o DeepL ficava para trás em cenários de tradução em tempo real — com um atraso médio de quase 1 segundo por frase. Essa é uma grande lacuna para aplicativos que dependem de resultados instantâneos.

Calculamos a pontuação BLEU de suas traduções em comparação com traduções humanas, analisando diferentes aspectos, como o idioma de destino e o tamanho da frase no idioma de origem. 

Além disso, medimos o tempo de resposta dessas APIs de tradução, pois esse é um recurso importante para aplicativos que exigem traduções em tempo real, como aplicativos de viagem e agências de tradução.

Portanto, quando se trata de escolher a melhor API de tradução, não se trata apenas de quem oferece suporte à maioria dos idiomas. Trata-se de encontrar o equilíbrio certo entre qualidade, velocidade e contexto.

Aqui está um resumo de nossas principais descobertas

  • O DeepL e o Amazon Translate ofereceram a mais alta qualidade de tradução em geral, com o DeepL liderando em idiomas europeus e a Amazon superando o desempenho em idiomas asiáticos como japonês e chinês.
  • Não existe um mecanismo único para todos: o desempenho varia de acordo com o par de idiomas, o comprimento da frase e o contexto da tradução.
  • Frases mais longas tendem a produzir melhores pontuações BLEU em todos os mecanismos — um padrão consistente observado em todos os idiomas testados.
  • O Microsoft Translator teve o tempo de resposta mais rápido em traduções de segmento único (mediana: 0,09 segundos), enquanto o DeepL foi o mais lento (cerca de 1 segundo por segmento).
  • No modo de tradução em massa, Google e Microsoft ofereceram velocidades de menos de um segundo por segmento, enquanto a Amazon teve um desempenho inferior devido à falta de suporte a lotes verdadeiros.
  • As pontuações do BLEU mostraram diferenças estatisticamente significativas entre os motores, confirmadas pelos testes de Friedman e Nemenyi — validando os resultados além das evidências anedóticas.
  • A escalabilidade não é igual: O tempo de resposta do DeepL aumenta mais acentuadamente à medida que o volume do segmento cresce, o que pode ser um fator limitante em casos de uso de alto volume.
  • Todos os motores funcionaram bem o suficiente para aplicativos em tempo real, com exceção do DeepL no modo de chamada única e da Amazon em cenários em massa.
  • O português brasileiro teve o maior número de segmentos avaliados, tornando-se um dos pares de idiomas mais robustos do estudo.
  • A diversidade de dados é importante: o conjunto de dados utilizado abrangeu domínios como saúde, direito e TI, simulando demandas de tradução do mundo real com alta confiabilidade.

O que são APIs de tradução de máquina?

APIs de tradução de máquina são serviços baseados em nuvem que permitem que desenvolvedores e plataformas traduzam automaticamente textos entre idiomas usando modelos de aprendizado de máquina.

Em vez de criar seus próprios mecanismos de tradução do zero, as empresas podem integrar essas APIs em sites, aplicativos ou sistemas internos para fornecer conteúdo rápido, escalável e multilíngue.

Algumas das APIs de tradução de máquina mais populares incluem:

  • API do Google Tradutor – Abrange mais de 100 idiomas e se integra facilmente ao Google Cloud.
  • Amazon Translate – Projetado para tradução rápida em larga escala, com forte desempenho em idiomas asiáticos.
  • Microsoft Translator – Uma opção econômica com suporte a mais de 90 idiomas, ideal para aplicativos em tempo real.
  • API do DeepL – Conhecida por suas traduções de alta qualidade em idiomas europeus, especialmente quando se trata de fluência e nuances.

Essas APIs são amplamente utilizadas em setores como comércio eletrônico, viagens, jurídico, saúde, suporte ao cliente e localização, onde a tradução precisa e em tempo real pode melhorar drasticamente a experiência do usuário e a eficiência operacional.

Mas nem todas as APIs são criadas iguais — e escolher a correta depende de suas necessidades específicas: pares de idiomas, velocidade, custo e, claro, qualidade da tradução.

Motores de Tradução de Máquina

Para esta avaliação, selecionamos quatro motores de tradução de máquina comerciais que suportam todos os pares de idiomas em nosso conjunto de dados. Nós os descrevemos abaixo com seus valores de custo associados em janeiro de 2022.

  • Amazon Translate: Desenvolvido pela Amazon, ele oferece suporte para tradução de máquina em mais de 70 idiomas. Sua API Python é totalmente integrada aos serviços da AWS, a um custo de US$ 15 por milhão de caracteres.
  • DeepL: É uma empresa focada em tradução de máquina. Sua API oferece suporte a 26 idiomas, a um custo de US$ 25 por milhão de caracteres. Usamos sua API Python que permite traduções de e para o inglês.
  • Google Tradutor: Oferece suporte de tradução de máquina para mais de 100 idiomas, sendo o mecanismo com o maior alcance em relação aos idiomas suportados. Ele também oferece uma API Python integrada a todos os serviços do Google Cloud. O preço da tradução é de US$ 20 por milhão de caracteres.
  • Tradutor da Microsoft: É o serviço de tradução de máquina fornecido pela Microsoft a um custo de USD 10 por milhão de caracteres, sendo o preço mais baixo entre todos os motores de MT avaliados. Este mecanismo suporta quase 90 idiomas.

Todos os mecanismos de MT selecionados podem traduzir um único segmento por meio de suas respectivas APIs e, com exceção do Amazon Translate, eles também podem responder a uma chamada em massa, quando uma lista de segmentos é enviada e retornada de uma só vez.

Para lidar com a limitação de tradução em massa do Amazon Translate, fizemos uma pequena otimização de codificação na chamada única para eliminar a necessidade de estabelecer uma conexão com a API a cada tradução. Isso não chega a ser uma tradução em massa, mas ajudou a reduzir a diferença entre este e os outros mecanismos que oferecem suporte à tradução em massa.

Embora todos os motores de MT mencionados fossem adequados para ajustar seus modelos com dados paralelos ou um glossário para termos específicos, decidimos deixar essas opções de lado para esta avaliação.

Também tentamos avaliar outros mecanismos de MT (por exemplo, Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), mas não pudemos usá-los por um dos seguintes motivos: 

  • Indisponibilidade da API
  • Falta de documentação
  • Sem suporte para todos os idiomas de destino.

Métricas

Avaliamos a qualidade da tradução dos motores usando a pontuação BLEU (Papineni et al., 2002). Usamos o teste de Friedman (Friedman, 1940) para comparar as pontuações de diferentes motores e o teste post hoc de Nemenyi (Nemenyi, 1963) para verificar diferenças estatisticamente significativas entre os motores MT individuais.

Para calcular o tempo de resposta das APIs, selecionamos uma amostra de 100 segmentos do nosso conjunto de dados, respeitando a distribuição dos intervalos de tamanhos dos segmentos (Figura 2), e os traduzimos em cada mecanismo do inglês para o português.

Acionamos os motores com as frases selecionadas uma vez por dia durante uma semana para avaliar os métodos das APIs: individual e em lote. Não utilizamos todo o conjunto de dados e traduzimos apenas para um idioma de destino para avaliar o tempo de resposta, pois seria financeiramente caro acionar os motores por uma semana com 200 mil segmentos em sete idiomas.

Resultados Experimentais

Nesta seção, apresentamos os resultados da nossa investigação sobre o desempenho dos motores de tradução de máquina descritos na Seção 2.

Avaliação da Qualidade

A tabela abaixo apresenta a pontuação média do BLEU dos quatro mecanismos em cada idioma de destino. Para todos os idiomas, os valores de p do teste de Friedman foram menores que o nível de significância (0,05), o que significa que há diferenças estatisticamente significativas nos escores dos motores. Além disso, os motores com melhores escores para cada idioma tiveram desempenho estatisticamente diferente dos demais, de acordo com o teste post hoc de Nemenyi com valores de p inferiores ao nível de significância de 0,05. A Amazon e o DeepL alcançaram os melhores resultados gerais com as pontuações mais altas em 4 idiomas de destino. O Google empatou com o DeepL em espanhol e com a Amazon em chinês, enquanto o mecanismo de tradução da Microsoft não superou nenhum mecanismo de MT em nenhum idioma.

A figura a seguir apresenta a distribuição da pontuação BLEU para diferentes tamanhos de segmento em cada idioma de destino. Uma tendência comum nesses gráficos é que quanto mais longa a frase, melhor a pontuação do BLEU.

Por exemplo, as pontuações medianas de todos os mecanismos de MT para o alemão como idioma de destino foram de cerca de 0,6 para segmentos com tamanho entre 1 e 10 e perto de 0,7 para os segmentos maiores que 40 palavras.

O japonês é a única exceção: o tamanho do segmento não afetou a qualidade da tradução da Amazon e do DeepL, mas afetou a qualidade da Microsoft (pontuação BLUE mediana de 0,61 para o intervalo de 1 a 10 e 0,58 para o intervalo de 40-) e do Google (pontuação BLUE mediana de 0,62 para o intervalo de 1 a 10 e 0,6 para o intervalo de 40-).

Avaliação do tempo de tradução

A distribuição do tempo de tradução por segmento para cada mecanismo de MT—ao enviar um segmento por vez (único) e 100 segmentos de uma vez (em massa)—pode ser analisada abaixo.

No cenário único, a Microsoft forneceu a tradução mais rápida (mediana de 0,09 segundo por segmento). Amazon e Google foram cerca de duas vezes mais lentos (medianas próximas a 0,2 segundo), e o DeepL foi o mais lento (mediana de 0,96 segundo por segmento), quase dez vezes maior que a Microsoft.

A primeira coisa a notar ao usar a chamada em massa das APIs em comparação com a única é que houve uma grande redução no tempo de tradução por segmento. Para o DeepL, por exemplo, o tempo mediano de tradução por segmento diminuiu de 0,95 segundo, na execução única, para 0,02 segundo na execução em massa. 

Esses resultados mostram claramente que a operação em massa é muito mais eficiente do que enviar segmentos individualmente para tradução. Em relação aos desempenhos individuais dos mecanismos, a Microsoft e o Google obtiveram os menores tempos de tradução (mediana de 0,003 e 0,002 segundo por segmento, respectivamente), enquanto o maior tempo de tradução foi da Amazon (mediana de 0,09 segundo). 

Acreditamos que a razão para esse baixo desempenho da Amazon é que ela não fornece uma chamada em massa real, o que tivemos que aproximar em nossos experimentos, como mencionado anteriormente.

Os motores MT avaliados, portanto, apresentaram baixo tempo de tradução por segmento, o que os torna adequados para aplicações de tradução em tempo real. A única exceção foi o DeepL no único cenário em que o tempo mediano de tradução de uma única frase foi próximo a 1 segundo.

Para analisar a escalabilidade dos motores, apresentamos abaixo o tempo de resposta dos motores MT quando variamos o número de segmentos. Em todas as curvas, o tempo cresce linearmente com o número de segmentos.

No entanto, o coeficiente linear de alguns dos motores é muito menor do que os outros. Por exemplo, o DeepL tem o coeficiente mais alto no cenário único e a Amazon o mais alto no cenário em massa, o que significa que eles não escalam tão bem quanto seus concorrentes em cada cenário respectivo.

Conclusão

Neste artigo, apresentamos uma avaliação de quatro motores de tradução de máquina em relação à sua qualidade e tempo de resposta. Nossa avaliação mostrou que a qualidade dos motores é semelhante, mas com a Amazon e o Deepl como os melhores desempenhos. Em relação ao tempo de resposta, no geral os motores apresentaram bom desempenho, com exceção do DeepL, ao enviar um segmento por vez, e da Amazon na chamada em lote.

Configuração experimental

Nesta seção, apresentamos a configuração que usamos em nossa avaliação experimental. Mais especificamente, descrevemos o conjunto de dados de verdade fundamental, os motores de tradução de máquina e as métricas usadas para avaliar os motores.

Dados

O conjunto de dados utilizado nesta avaliação, proveniente de 13 memórias de tradução de diferentes empresas geradas por tradutores profissionais, tem o inglês como língua de origem e sete línguas de destino: 

  • Alemão (de)
  • Espanhol (sp)
  • Francês (fr)
  • Italiano (it)
  • Japonês (ja)
  • Português do Brasil (pt)
  • Chinês (zh)

Cada frase em inglês tem pelo menos um par correspondente com uma das línguas-alvo mencionadas. Há um total de 224.223 segmentos em inglês no conjunto de dados e 315.073 pares.

A figura abaixo apresenta a distribuição do número de segmentos para cada idioma de destino. O português brasileiro tem o maior número de segmentos (perto de 60 mil), enquanto o japonês e o espanhol têm o menor, cerca de 20 mil segmentos. Uma característica importante deste conjunto de dados para esta avaliação é que ele cobre uma grande diversidade de tópicos.

A figura a seguir mostra uma nuvem de palavras dos segmentos em inglês. Como se pode ver, há conteúdos relacionados à saúde, direito, tecnologia da informação etc.

O conjunto de dados é estruturado com um segmento de texto no idioma de origem e uma lista de referências com as traduções nos idiomas de destino. Essas listas de referências têm pelo menos uma tradução associada ao texto original, embora possam ter mais de uma, pois um segmento pode ter mais de uma tradução possível.

Para simplificar nossa análise, agrupamos os segmentos em faixas de tamanho 10, conforme mostrado na figura abaixo, a fim de avaliar o impacto do tamanho do segmento na qualidade da tradução dos motores.

Este artigo é para…

Toda empresa que está planejando implementar qualquer tipo de tradução precisa ler este artigo porque destacamos as várias vantagens e desvantagens de cada ferramenta de tradução de máquina em termos de qualidade e tempo de resposta. Este conteúdo aprofundado é voltado para profissionais que estão ativamente envolvidos na melhoria de seus produtos e serviços relacionados à tradução, como:

  • Gerentes de Produto,
  • Gerentes de Projeto,
  • Gerentes de Localizações,
  • Líderes de Engenharia,
  • Tradutores,
  • Agências de Tradução.

Este artigo foi escrito por engenheiros da Bureau Works.

A Bureau Works oferece serviços de tradução abrangentes internamente em nossa plataforma de tradução que permite relatórios detalhados, memória de tradução em evolução e localização automatizada.

Mais importante ainda, combinamos os elementos comerciais e técnicos da localização sob o mesmo teto.

Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.

Bureauworks, Universidade Federal de Pernambuco, Universidade Federal Rural de Pernambuco

3685 Mt Diablo Blvd, Lafayette, CA, Estados Unidos, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasil

3685 Mt Diablo Blvd, Lafayette, CA, Estados Unidos, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasil

{gabriel.melo, filipe, henrique}@bureauworks.com luciano@cin.ufpe.br, vanilson.buregio@ufrpe.br

Desbloqueie o poder da glocalização com nosso Sistema de Gerenciamento de Tradução.

Desbloqueie o poder da

com nosso Sistema de Gerenciamento de Tradução.

Comece agora
Traduza duas vezes mais rápido de forma impecável
Comece
Nossos eventos online!
Join our community

Experimente a Bureau Works gratuitamente por 14 dias.

Integração com ChatGPT
Comece agora mesmo
Os primeiros 14 dias são por nossa conta
Suporte básico gratuito