Vilka är de bästa API:erna för maskinöversättning?

En fullständig jämförelsestudie av de bästa maskinöversättnings-API:erna—Google, Amazon, DeepL & Microsoft. Upptäck den som presterar bäst.
Innehållsförteckning

API:er för översättning finns överallt. Men alla levererar inte samma prestandanivå. 

En nyligen genomförd studie visade att det inte finns någon enskild vinnare för alla språk, och kommersiella motorer har en överlägsen prestanda i jämförelse med motorer med öppen källkod.

I den här benchmarkstudien testades de främsta aktörerna – Google, Amazon, Microsoft och DeepL – med hjälp av över 200 000 mänskligt översatta segment på sju språk, inklusive portugisiska, kinesiska och japanska. 

DeepL och Amazon hamnade i topp, där DeepL utmärkte sig på europeiska språk och Amazon ledde på asiatiska.

Medan de flesta motorer levererade snabba svar, släpade DeepL efter i scenarier med översättning i realtid – med en medianfördröjning på nästan 1 sekund per mening. Det är en stor brist för Appar som är beroende av omedelbara resultat.

Vi beräknar BLEU-poängen för deras översättningar i jämförelse med mänskliga översättningar, och analyserar olika aspekter såsom målspråk och storleken på meningen i källspråket. 

Dessutom mäter vi svarstiden för dessa översättnings-API:er, eftersom detta är en viktig funktion för applikationer som kräver realtidsöversättningar, såsom reseappar och översättningsbyråer.

Så när det gäller att välja den bästa översättnings-API:n handlar det inte bara om vem som supportar flest språk. Det handlar om att hitta rätt balans mellan Kvalitet, hastighet och kontext.

Här är en sammanfattning av våra Viktiga fynd

  • DeepL och Amazon Translate levererade den högsta översättningskvaliteten överlag, med DeepL som ledande i europeiska språk och Amazon som överträffar i asiatiska språk som japanska och kinesiska.
  • Det finns ingen motor som passar alla: prestandan varierar beroende på språkpar, meningslängd och översättningssammanhang.
  • Längre meningar tenderar att ge bättre BLEU-poäng i alla motorer – ett konsekvent mönster som observeras i varje språk som testats.
  • Microsoft Översättare hade den snabbaste svarstiden i enskilda segmentöversättningar (median: 0,09 sekunder), medan DeepL var långsammast (nära 1 sekund per segment).
  • I bulköversättningsläge erbjöd Google och Microsoft hastigheter under en sekund per segment, medan Amazon presterade sämre på grund av bristen på äkta batchsupport.
  • BLEU-poäng visade statistiskt signifikanta skillnader mellan motorerna, vilket bekräftades av Friedman- och Nemenyi-tester – vilket validerade resultaten bortom anekdotiska bevis.
  • Skalbarheten är inte lika med: DeepL:s svarstid ökar kraftigare i takt med att segmentvolymen växer, vilket kan vara en begränsande faktor i användningsfall med hög volym.
  • Alla motorer presterade tillräckligt bra för realtidsapplikationer, med undantag för DeepL i enkelanropsläge och Amazon i bulkscenarier.
  • Brasiliansk portugisiska hade det högsta antalet utvärderade segment, vilket gör det till ett av de mest robusta språkparen i studien.
  • Datamångfald är viktigt: datauppsättningen som användes täckte områden som hälsa, juridik och IT och simulerade verkliga översättningskrav med hög tillförlitlighet.

Vad är maskinöversättnings-API:er?

Maskinöversättning APIs är molnbaserade tjänster som tillåter Utvecklare och plattformar att automatiskt översätta text mellan språk med hjälp av maskininlärningsmodeller.

Istället för att bygga sina egna översättningsmotorer från grunden kan företag integrera dessa API:er i webbplatser, Appar eller interna system för att tillhandahålla snabbt, skalbart och flerspråkigt Innehåll.

Några av de mest populära maskinöversättning API:erna inkluderar:

  • Google Translate API – Täcker över 100 språk och integreras enkelt med Google Cloud.
  • Amazon Translate – Designad för storskalig, snabb översättning, med stark prestanda på asiatiska språk.
  • Microsoft Översättare – Ett budgetvänligt alternativ som erbjuder support för 90+ språk, perfekt för realtidsapplikationer.
  • DeepL API – Känd för sina översättningar av hög Kvalitet i europeiska språk, särskilt när det gäller flyt och nyans.

Dessa API:er används flitigt i branscher som e-handel, resor, juridik, sjukvård, kundsupport och lokalisering, där korrekt, realtidsöversättning kan förbättra användarupplevelsen och operativ effektivitet avsevärt.

Men alla API:er är inte skapade lika — och att välja rätt beror på dina specifika behov: språkpar, hastighet, kostnad och naturligtvis översättningskvalitet.

Maskinöversättningsmotorer

För denna utvärdering valde vi fyra kommersiella maskinöversättningsmotorer som har support för alla språkpar i vår datamängd. Vi beskriver dem nedan med deras tillhörande kostnadsvärden från och med januari 2022.

  • Amazon Översätt: Utvecklad av Amazon, den ger support för maskinöversättning på mer än 70 språk. Dess Python API är helt integrerat med AWS-tjänster, till en kostnad av 15 USD per miljon tecken.
  • DeepL: Det är ett företag fokuserat på maskinöversättning. Dess API har support för 26 språk, till en kostnad av 25 USD per miljon tecken. Vi använde dess Python-API som möjliggör översättningar från och till engelska.
  • Google Översätt: Den tillhandahåller maskinöversättning support för över 100 språk och är motorn med den bredaste räckvidden när det gäller stödda språk. Det tillhandahåller också ett Python-API integrerat med alla Google Cloud-tjänster. Översättningspriser är USD 20 per miljon tecken.
  • Microsoft Översättare: Det är maskinöversättningstjänsten som tillhandahålls av Microsoft till en kostnad av 10 USD per miljon tecken, vilket är den lägsta priset bland alla utvärderade MT-motorer. Denna motor support nästan 90 språk.

De valda MT-motorerna kan alla översätta ett enskilt segment via sina respektive API, och förutom Amazon Translate kan de också svara på ett massanrop, när en lista med segment Skicka och returneras på en gång.

För att hantera begränsningen av bulköversättning i Amazon Translate gjorde vi en mindre kodoptimering i det enskilda anropet för att eliminera behovet av att upprätta en anslutning till API:et vid varje översättning. Detta är inte nära en bulköversättning men hjälpte till att minska gapet mellan denna och de andra motorerna med bulköversättningssupport.

Även om alla nämnda MT-motorer var lämpliga för att justera sina modeller med parallell data eller en ordlista för specifika termer, beslutade vi att lägga dessa alternativ åt sidan för denna utvärdering.

Vi försöker också utvärdera andra MT-motorer (t.ex. Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba), men vi kunde inte använda dem av en av följande anledningar: 

  • API-otillgänglighet
  • Brist på dokumentation,
  • Inget support för alla målspråk.

Mätvärden

Vi utvärderar översättningens Kvalitet av motorerna med hjälp av BLEU-poäng (Papineni et al., 2002). Vi använde Friedmans test (Friedman, 1940) för att jämföra poängen för olika motorer, och post hoc Nemenyi-testet (Nemenyi, 1963) för att verifiera statistiskt signifikanta skillnader mellan enskilda MT-motorer.

För att beräkna API:ernas svarstid valde vi ett urval av 100 segment från vår datauppsättning, med hänsyn till fördelningen av intervallen för segmentstorlekar (figur 2), och översatte dem i varje motor från engelska till portugisiska.

Vi slog motorerna med de valda meningarna en gång om dagen i en vecka för att utvärdera API:ernas metoder: singel och bulk. Vi använde inte hela datasetet och översatte bara till ett målspråk för att utvärdera svarstiden, eftersom det skulle vara ekonomiskt kostsamt att köra på motorerna i en vecka med 200 000 segment på sju språk.

Experimentella resultat

I det här avsnittet presenterar vi resultaten av vår undersökning om prestandan hos de maskinöversättning motorer som beskrivs i avsnitt 2.

Kvalitet Utvärdering

Tabellen nedan visar medelvärdet av BLEU-poängen för de fyra motorerna på varje målspråk. För alla språk var p-värdena i Friedmans test lägre än signifikansnivån (0,05), vilket innebär att det finns statistiskt signifikanta skillnader i motorernas poäng. Dessutom hade motorerna med bäst poäng för varje språk prestanda som statistiskt skilde sig från de andra, enligt post hoc Nemenyi-testet med p-värden som var lägre än signifikansnivån 0,05. Amazon och DeepL uppnådde de bästa övergripande resultaten med de högsta poängen i 4 målspråk. Google hamnade på samma nivå som DeepL på spanska och Amazon på kinesiska, medan Microsofts översättningsmotor inte överträffade någon MT-motor på något språk.

I följande figur visas BLEU-poängfördelningen för olika segmentstorlekar på varje målspråk. En vanlig trend i dessa diagram är att ju längre en mening är, desto bättre BLEU-poäng.

Till exempel var medianpoängen för alla MT-motorer för tyska som målspråk cirka 0,6 för segment med en storlek mellan 1 och 10 och nära 0,7 för segment som var större än 40 ord.

Japanska är det enda undantaget: segmentstorleken påverkade inte översättningens Kvalitet för Amazon och DeepL, men påverkade Kvaliteten för Microsoft (median BLUE-poäng på 0,61 för intervallet 1-10 och 0,58 för intervallet 40-) och Google (median BLUE-poäng på 0,62 för intervallet 1-10 och 0,6 för intervallet 40-).

Utvärdering av översättningstid

Fördelningen av översättningstid per segment för varje MT-motor – när du skickar ett segment i taget (enkel) och 100 segment samtidigt (bulk) – kan analyseras nedan.

I det enskilda scenariot tillhandahöll Microsoft den snabbaste översättningen (median 0,09 sekunder per segment). Amazon och Google var ungefär två gånger långsammare (medianer nära 0,2 sekunder), och DeepL var den långsammaste (median på 0,96 sekunder per segment), nästan tio gånger högre än Microsoft.

Det första du bör lägga märke till när du använder bulkanropet av API:erna jämfört med det enda är att översättningstiden per segment minskade avsevärt. För DeepL, till exempel, minskade mediantiden för översättning per segment från 0,95 sekunder i det enskilda utförandet till 0,02 sekunder i bulkutförandet. 

Dessa resultat visar tydligt att bulkoperationen är mycket effektivare än att skicka segment individuellt för översättning. När det gäller de enskilda motorernas prestanda fick Microsoft och Google de lägsta översättningstiderna (median på 0,003 respektive 0,002 sekunder per segment), medan den högsta översättningstiden kom från Amazon (median på 0,09 sekunder). 

Vi tror att anledningen till Amazons dåliga resultat är att det inte erbjuder ett riktigt bulksamtal, vilket vi var tvungna att approximera i våra experiment som tidigare nämnts.

De utvärderade MT-motorerna hade därför en låg översättningstid per segment, vilket gör dem lämpliga för översättningstillämpningar i realtid. Det enda undantaget var DeepL i det enskilda scenariot där medianöversättningstiden för en enda mening var nära 1 sekund.

För att analysera skalbarheten hos motorerna presenterar vi nedan svarstiden för MT-motorerna när vi varierar antalet segment. I alla kurvor växer tiden linjärt med antalet segment.

Den linjära koefficienten för vissa av motorerna är dock mycket mindre än de andra. Till exempel har DeepL den högsta koefficienten i det enskilda scenariot och Amazon den högsta i det bulka, vilket innebär att de inte skalar lika bra som sina konkurrenter i varje respektive scenario.

Slutsats

I denna artikel presenterade vi en utvärdering av fyra maskinöversättningsmotorer med avseende på deras Kvalitet och svarstid. Vår utvärdering visade att Kvaliteten på motorerna är liknande, men att Amazon och Deepl är de bästa presterarna. När det gäller svarstid uppvisade motorerna överlag bra prestanda, med undantag för DeepL, när de skickade ett segment i taget, och Amazon i batchanropet.

Experimentell uppställning

I det här avsnittet presenterar vi den uppställning vi använde i vår experimentella utvärdering. Mer specifikt beskriver vi grundsanningsdatasetet, maskinöversättningsmotorerna och de metoder som används för att utvärdera motorerna.

Data

Datasettet som används i denna utvärdering, som härstammar från 13 översättningsminnen från olika företag genererade av professionella översättare, har engelska som källspråk och sju målspråk: 

  • Tyska (de)
  • Spanska (sp)
  • Franska (fr)
  • Italienska (it)
  • Japanska (ja)
  • Brasiliansk portugisiska (pt)
  • Kinesiska (zh)

Varje mening på engelska har minst ett motsvarande par med ett av de nämnda målspråken. Det finns totalt 224 223 segment på engelska i datauppsättningen och 315 073 par.

Figuren nedan visar fördelningen av antalet segment för varje målspråk. Brasiliansk portugisiska har det högsta antalet segment (nära 60k), medan japanska och spanska har det lägsta, cirka 20k segment. En viktig egenskap hos detta dataset för denna utvärdering är att det täcker en stor mångfald av ämnen.

Följande bild visar ett ordmoln av de engelska segmenten. Som man kan se, finns det Innehåll relaterat till hälsa, juridik, informationsteknik etc.

Datasetet är strukturerat med ett textsegment på källspråket och en referenslista med översättningarna på målspråken. Dessa referenslistor har minst en översättning som är kopplad till originaltexten, även om den kan ha fler än en, eftersom ett segment kan ha mer än en möjlig översättning.

För att förenkla vår analys grupperade vi segmenten i intervall om storlek 10, som visas i figuren nedan, för att utvärdera segmentstorlekens påverkan på motorernas översättningskvalitet.

Detta dokument är för…

Varje företag som planerar att implementera någon form av översättningar behöver läsa detta dokument eftersom vi beskriver de olika fördelarna och nackdelarna med varje maskinöversättning-verktyg i termer av Kvalitet och svarstid. Detta djupgående Innehåll är inriktat på yrkesverksamma som aktivt arbetar med att förbättra sina översättningsrelaterade produkter och tjänster, såsom:

  • Produktchefer,
  • projektledare,
  • Lokaliseringschefer,
  • Ingenjörsledare,
  • Översättare,
  • Översättningsbyråer.

Detta dokument skrevs av Bureau Works-ingenjörer.

Bureau Works levererar omfattande interna översättningstjänster på vår lokaliseringsplattform som möjliggör djupgående rapportering, utvecklande översättningsminne och automatiserad lokalisering.

Viktigast av allt är att vi kombinerar de affärsmässiga och tekniska delarna av lokalisering under ett och samma tak.

Gabriel Melo, Luciano Barbosa, Fillipe de Menezes, Vanilson Buregio, Henrique Cabral.

Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco

3685 Mt DiabLo BLvd, Lafayette, CA, Förenta staterna, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasilien, Rua Dom ManueL de Medeiros, s/n, Recife, PE, Brasilien

3685 Mt DiabLo BLvd, Lafayette, CA, Förenta staterna, Av. Prof. Moraes Rego, 1235, Recife, PE, Brasilien, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brasilien

{gabrieL.meLo, fiLipe, henrique}@bureauworks.com Luciano@cin.ufpe.br, vaniLson.buregio@ufrpe.br

Lås upp kraften i glokalisering med vårt översättningshanteringssystem.

Lås upp kraften i

med vårt översättningshanteringssystem.

Registrera dig idag
Översätt dubbelt så snabbt oklanderligt
Kom igång
Våra onlineevenemang!
Gå med i vår community

Prova Bureau Works gratis i 14 dagar

Framtiden är bara några klick bort
Kom igång nu
De första 14 dagarna bjuder vi på
Support i världsklass