Le API di traduzione sono ovunque. Ma non tutti offrono lo stesso livello di prestazioni.
Uno studio recente ha dimostrato che non esiste un unico vincitore per tutti i linguaggi e che i motori commerciali hanno prestazioni superiori rispetto a quelli open source.
Questo studio di benchmark ha testato i principali attori — Google, Amazon, Microsoft e DeepL — utilizzando oltre 200.000 segmenti tradotti dall'uomo in sette lingue, tra cui portoghese, cinese e giapponese.
DeepL e Amazon sono risultati i migliori, con DeepL che eccelle nelle lingue europee e Amazon che guida in quelle asiatiche.
Mentre la maggior parte dei motori ha fornito risposte rapide, DeepL è rimasto indietro negli scenari di traduzione in tempo reale, con un ritardo mediano di quasi 1 secondo per frase. Questa è una grande lacuna per le Applicazioni che si basano su risultati istantanei.
Calcoliamo il punteggio BLEU delle loro traduzioni in confronto alle traduzioni umane, analizzando diversi aspetti come la lingua di destinazione e la dimensione della frase nella lingua di origine.
Inoltre, misuriamo il tempo di risposta di queste API di traduzione, poiché questa è una caratteristica importante per le applicazioni che richiedono traduzioni in tempo reale, come le applicazioni di viaggio e le agenzie di traduzione.

Quindi, quando si tratta di scegliere la migliore API di traduzione, non si tratta solo di chi fornisce assistenza per il maggior numero di lingue. Si tratta di trovare il giusto equilibrio tra qualità, velocità e contesto.
Ecco un Riassunto dei Nostri Principali Risultati
- DeepL e Amazon Translate hanno fornito la qualità di traduzione più alta in generale, con DeepL in testa per le lingue europee e Amazon che supera nelle lingue asiatiche come il giapponese e il cinese.
- Non esiste un motore unico per tutti: le prestazioni variano in base alla coppia di lingue, alla lunghezza delle frasi e al contesto di traduzione.
- Le frasi più lunghe tendono a produrre punteggi BLEU migliori su tutti i motori, un modello coerente osservato in ogni lingua testata.
- Microsoft Traduttore ha avuto il tempo di risposta più veloce nelle traduzioni a segmento singolo (mediana: 0,09 secondi), mentre DeepL è stato il più lento (quasi 1 secondo per segmento).
- In modalità di traduzione in blocco, Google e Microsoft hanno offerto velocità inferiori al secondo per segmento, mentre Amazon ha avuto prestazioni inferiori a causa della sua mancanza di vera assistenza per batch.
- I punteggi BLEU hanno mostrato differenze statisticamente significative tra i motori, confermate dai test di Friedman e Nemenyi, convalidando i risultati oltre l'evidenza aneddotica.
- La scalabilità non è uguale: Il tempo di risposta di DeepL aumenta più bruscamente con l'aumentare del volume del segmento, il che può essere un fattore limitante nei casi d'uso ad alto volume.
- Tutti i motori hanno funzionato abbastanza bene per le applicazioni in tempo reale, ad eccezione di DeepL in modalità a chiamata singola e Amazon in scenari di massa.
- Il portoghese brasiliano ha avuto il maggior numero di segmenti valutati, il che lo rende una delle coppie linguistiche più solide dello studio.
- La diversità dei dati è importante: il set di dati utilizzato copriva settori come la sanità, il diritto e l'IT, simulando le esigenze di traduzione del mondo reale con elevata affidabilità.
Cosa sono le API di traduzione automatica?
Le API di traduzione automatica sono servizi basati su cloud che permettono a Sviluppatori e piattaforme di tradurre automaticamente il testo tra lingue diverse utilizzando modelli di apprendimento automatico.
Invece di costruire i propri motori di traduzione da zero, le aziende possono integrare queste API in siti web, Applicazioni o sistemi interni per fornire Contenuto veloce, scalabile e multilingue.
Alcune delle API di traduzione automatica più popolari includono:
- API di Google Traduttore – Copre oltre 100 lingue e si integra facilmente con Google Cloud.
- Amazon Translate – Progettato per traduzioni rapide e su larga scala, con ottime prestazioni nelle lingue asiatiche.
- Microsoft Traduttore – Un'opzione economica con assistenza per oltre 90 lingue, ideale per applicazioni in tempo reale.
- DeepL API – Conosciuto per le sue traduzioni di alta Qualità nelle lingue europee, specialmente per quanto riguarda la fluidità e le sfumature.
Queste API sono ampiamente utilizzate in settori come l'e-commerce, i viaggi, il settore legale, la sanità, l'assistenza clienti e la localizzazione, dove una traduzione accurata e in tempo reale può migliorare drasticamente l'esperienza utente e l'efficienza operativa.
Ma non tutte le API sono create uguali — e scegliere quella giusta dipende dalle tue esigenze specifiche: coppie di lingue, velocità, costo e, naturalmente, qualità della traduzione.
Motori di Traduzione Automatica
Per questa valutazione, abbiamo selezionato quattro motori di traduzione automatica commerciali che forniscono assistenza per tutte le coppie di lingue nel nostro dataset. Li descriviamo di seguito con i relativi valori di costo a partire da gennaio 2022.
- Amazon Traduttore: Sviluppato da Amazon, fornisce assistenza per la traduzione automatica in più di 70 lingue. La sua API Python è completamente integrata con i servizi AWS, al costo di 15 USD per milione di caratteri.
- DeepL: È un'azienda focalizzata sulla traduzione automatica. La sua API offre assistenza per 26 lingue, al costo di 25 USD per milione di caratteri. Abbiamo utilizzato la sua API Python che consente traduzioni da e verso l'inglese.
- Google Traduttore: Fornisce assistenza per la traduzione automatica in oltre 100 lingue, essendo il motore con la portata più ampia per quanto riguarda le lingue supportate. Fornisce inoltre un'API Python integrata con tutti i servizi Google Cloud. La tariffa di traduzione è di 20 USD per milione di caratteri.
- Microsoft Traduttore: È il servizio di traduzione automatica fornito da Microsoft al costo di 10 USD per milione di caratteri, essendo le tariffe più basse tra tutti i motori di MT valutati. Questo motore offre assistenza per quasi 90 lingue.
I motori MT selezionati sono tutti in grado di tradurre un singolo segmento tramite le rispettive API e, tranne Amazon Translate, possono anche rispondere a una chiamata collettiva, quando viene inviata una lista di segmenti e restituita in una sola volta.
Per affrontare la limitazione del volume di Amazon Translate, abbiamo effettuato una piccola ottimizzazione del codice nella singola chiamata per eliminare la necessità di stabilire una connessione all'API ad ogni traduzione, il che non è vicino a una traduzione in blocco ma ha aiutato a ridurre il divario tra questo e gli altri motori con assistenza alla traduzione in blocco.
Anche se tutti i motori MT menzionati erano adatti per ottimizzare i loro modelli con dati paralleli o un Glossario per termini specifici, abbiamo deciso di mettere da parte queste opzioni per questa valutazione.
Cerchiamo anche di valutare altri motori di traduzione automatica (ad esempio, Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), ma non siamo riusciti a utilizzarli per uno dei seguenti motivi:
- Indisponibilità delle API
- Mancanza di documentazione,
- Nessuna assistenza per tutte le lingue di destinazione.
Metriche
Valutiamo la Qualità della traduzione dei motori utilizzando il punteggio BLEU (Papineni et al., 2002). Abbiamo utilizzato il test di Friedman (Friedman, 1940) per confrontare i punteggi di diversi motori e il test post hoc di Nemenyi (Nemenyi, 1963) per verificare le differenze statisticamente significative tra i singoli motori MT.
Per calcolare il tempo di risposta delle API, abbiamo selezionato un campione di 100 segmenti del nostro set di dati, rispettando la distribuzione degli intervalli delle dimensioni dei segmenti (Figura 2), e li abbiamo tradotti in ciascun motore dall'inglese al portoghese.
Colpiamo i motori con le frasi selezionate una volta al giorno per una settimana per valutare i metodi delle API: singolo e di massa. Non abbiamo utilizzato l'intero set di dati e abbiamo tradotto solo in una lingua di destinazione per valutare il tempo di risposta, perché sarebbe stato finanziariamente costoso colpire i motori per una settimana con 200k segmenti in sette lingue.

Risultati Sperimentali
In questa sezione, presentiamo i risultati della nostra indagine sulle prestazioni dei motori di traduzione automatica descritti nella Sezione 2.
Valutazione della Qualità
La tabella seguente presenta il punteggio medio BLEU dei quattro motori per ciascuna lingua di destinazione. Per tutte le lingue, i valori p del test di Friedman erano inferiori al livello di significatività (0,05), il che significa che ci sono differenze statisticamente significative nei punteggi dei motori. Inoltre, i motori con i migliori punteggi per ogni lingua hanno avuto prestazioni statisticamente diverse dagli altri, secondo il test post hoc di Nemenyi con valori p inferiori al livello di significatività di 0,05. Amazon e DeepL hanno ottenuto i migliori risultati complessivi con i punteggi più alti in 4 lingue di destinazione. Google ha pareggiato con DeepL in spagnolo e con Amazon in cinese, mentre il motore di traduzione Microsoft non ha superato nessun motore di traduzione automatica in nessuna lingua.

La figura seguente presenta la distribuzione del punteggio BLEU per diverse dimensioni di segmento in ciascuna lingua di destinazione. Una tendenza comune in questi grafici è che più lunga è una frase, migliore è il punteggio BLEU.

Ad esempio, i punteggi mediani di tutti i motori di traduzione automatica per il tedesco come lingua di destinazione erano di circa 0,6 per i segmenti con dimensioni comprese tra 1 e 10 e vicini a 0,7 per i segmenti superiori a 40 parole.

Il giapponese è l'unica eccezione: la dimensione del segmento non ha influenzato la Qualità della traduzione di Amazon e DeepL, ma ha influenzato la Qualità di Microsoft (punteggio BLUE mediano di 0.61 per l'intervallo 1-10 e 0.58 per l'intervallo 40-) e Google (punteggio BLUE mediano di 0.62 per l'intervallo 1-10 e 0.6 per l'intervallo 40-).





Valutazione del tempo di traduzione
Di seguito è possibile analizzare la distribuzione del tempo di traduzione per segmento per ciascun motore di traduzione automatica, sia quando si invia un segmento alla volta (singolo) sia quando si inviano 100 segmenti contemporaneamente (in blocco).

Nel singolo scenario, Microsoft ha fornito la traduzione più veloce (mediana di 0,09 secondi per segmento). Amazon e Google erano circa due volte più lenti (mediane vicine a 0,2 secondi), e DeepL era il più lento (mediana di 0,96 secondi per segmento), quasi dieci volte più alto di Microsoft.

La prima cosa da notare quando si utilizza la chiamata di massa delle API rispetto a quella singola è che c'è stata una grande riduzione del tempo di traduzione per segmento. Per DeepL, ad esempio, il tempo mediano di traduzione per segmento è diminuito da 0,95 secondi, nell'esecuzione singola, a 0,02 secondi in quella di massa.
Questi risultati mostrano chiaramente che l'operazione di massa è molto più efficiente rispetto all'invio di singoli segmenti per la traduzione. Per quanto riguarda le prestazioni individuali dei motori, Microsoft e Google hanno ottenuto i tempi di traduzione più bassi (mediana rispettivamente di 0,003 e 0,002 secondi per segmento), mentre il tempo di traduzione più elevato è stato ottenuto da Amazon (mediana di 0,09 secondi).
Riteniamo che la ragione di questa scarsa performance di Amazon sia che non fornisce una vera e propria chiamata di massa, che abbiamo dovuto approssimare nei nostri esperimenti come sopra menzionato.

I motori di traduzione automatica valutati, quindi, presentavano un tempo di traduzione per segmento ridotto, il che li rende adatti per applicazioni di traduzione in tempo reale. L'unica eccezione è stata DeepL nel singolo scenario in cui il tempo mediano di traduzione di una singola frase era vicino a 1 secondo.

Per analizzare la scalabilità dei motori, presentiamo di seguito il tempo di risposta dei motori di traduzione automatica quando variamo il numero di segmenti. In tutte le curve, il tempo cresce linearmente con il numero di segmenti.
Tuttavia, il coefficiente lineare di alcuni motori è molto più piccolo rispetto agli altri. Ad esempio, DeepL ha il coefficiente più alto nel singolo scenario e Amazon il più alto in quello di massa, il che significa che non scalano altrettanto bene come i loro concorrenti in ciascun rispettivo scenario.

Conclusione
In questo documento, abbiamo presentato una valutazione di quattro motori di traduzione automatica rispetto alla loro Qualità e al tempo di risposta. La nostra valutazione ha mostrato che la Qualità dei motori è simile, ma Amazon e Deepl sono i migliori. Per quanto riguarda il tempo di risposta, nel complesso i motori hanno presentato buone prestazioni, ad eccezione di DeepL, quando si invia un segmento alla volta, e di Amazon nella chiamata batch.
Configurazione sperimentale
In questa sezione, presentiamo la configurazione che abbiamo utilizzato nella nostra valutazione sperimentale. Più specificamente, descriviamo il dataset di verità a terra, i motori di traduzione automatica e le metriche utilizzate per valutare i motori.
Dati

Il dataset utilizzato in questa valutazione, proveniente da 13 memorie di traduzione di diverse aziende generate da traduttori professionisti, ha l'inglese come lingua di origine e sette lingue di destinazione:
- Tedesco (de)
- Spagnolo (sp)
- Francese (fr)
- Italiano (it)
- Giapponese (ja)
- Portoghese brasiliano (pt)
- Cinese (zh)
Ogni frase in inglese ha almeno una coppia corrispondente con una delle lingue di destinazione menzionate. Ci sono un totale di 224.223 segmenti in inglese nel set di dati e 315.073 coppie.
La figura seguente presenta la distribuzione del numero di segmenti per ogni lingua di destinazione. Il portoghese brasiliano ha il maggior numero di segmenti (quasi 60k), mentre il giapponese e lo spagnolo hanno il numero più basso, circa 20k segmenti. Una caratteristica importante di questo set di dati per questa valutazione è che copre una grande varietà di argomenti.

La figura seguente mostra una nuvola di parole dei segmenti inglesi. Come si può vedere, c'è Contenuto relativo alla salute, legge, tecnologia dell'informazione ecc.

Il set di dati è strutturato con un segmento di testo nella lingua di partenza e un elenco di riferimenti con le traduzioni nelle lingue di destinazione. Questi elenchi di riferimenti hanno almeno una traduzione associata al testo originale, anche se potrebbe averne più di una, poiché un segmento può avere più di una traduzione possibile.
Per semplificare la nostra analisi, abbiamo raggruppato i segmenti in intervalli di dimensione 10, come mostrato nella figura sottostante, al fine di valutare l'impatto della dimensione del segmento nella Qualità della traduzione dei motori.

Questo documento è per…
Ogni azienda che sta pianificando di implementare qualsiasi tipo di traduzioni deve leggere questo documento perché descriviamo i vari vantaggi e svantaggi di ogni strumento di traduzione automatica in termini di Qualità e tempo di risposta. Questo Contenuto approfondito è rivolto ai professionisti che sono attivamente coinvolti nel miglioramento dei loro prodotti e servizi legati alla traduzione, come:
- Product Managers,
- Responsabili di progetto,
- Localizations Managers,
- Engineering Leaders,
- Traduttori,
- Agenzie di traduzione.
Questo documento è stato scritto dagli ingegneri di Bureau Works.
Bureau Works offre servizi di traduzione completi interni sulla nostra piattaforma di localizzazione che consente report dettagliati, memoria di traduzione in evoluzione e localizzazione automatizzata.
Soprattutto, combiniamo gli elementi commerciali e tecnici della localizzazione sotto lo stesso tetto.
Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.
Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco
3685 Mt DiabLo BLvd, Lafayette, CA, Stati Uniti, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasile, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasile
3685 Mt Diablo Blvd, Lafayette, CA, Stati Uniti, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasile, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasile
{gabriel.melo, filipe, henrique}@bureauworks.com luciano@cin.ufpe.br, vanilson.buregio@ufrpe.br