번역 API는 어디에나 있습니다. 그러나 모든 엔진이 동일한 수준의 성능을 제공하는 것은 아닙니다.
최근 연구에 따르면 모든 언어에 대해 단일 승자는 없으며 상용 엔진은 오픈 소스 엔진에 비해 우수한 성능을 가지고 있습니다.
이 벤치마크 연구는 포르투갈어, 중국어, 일본어를 포함한 7개 언어에 걸쳐 200,000개 이상의 사람이 번역한 세그먼트를 사용하여 Google, Amazon, Microsoft 및 DeepL과 같은 주요 업체를 테스트했습니다.
DeepL과 Amazon이 1위를 차지했으며, DeepL은 유럽 언어에서 뛰어난 성과를 보였고 Amazon은 아시아 언어에서 선두를 달리고 있습니다.
대부분의 엔진이 빠른 응답을 제공했지만, DeepL은 실시간 번역 시나리오에서 뒤처져 문장당 평균 지연이 거의 1초에 가까웠습니다. 즉각적인 결과에 의존하는 앱에는 큰 격차가 있습니다.
우리는 그들의 번역의 BLEU 점수를 인간 번역과 비교하여 계산하고, 대상 언어 및 원본 언어의 문장 크기와 같은 다양한 측면을 분석합니다.
또한, 여행 앱 및 번역 대행사와 같이 실시간 번역이 필요한 애플리케이션에 중요한 기능이기 때문에 이러한 번역 API의 응답 시간을 측정합니다.

따라서 최고의 번역 API를 선택할 때, 가장 많은 언어를 지원하는 것만이 전부는 아닙니다. 품질, 속도, 그리고 맥락 사이에서 적합한 균형을 맞추는 것입니다.
여기 우리의 키 발견 요약이 있습니다
- DeepL과 Amazon Translate는 전반적으로 가장 높은 번역 품질을 제공했으며, DeepL은 유럽 언어에서, Amazon은 일본어와 중국어 같은 아시아 언어에서 뛰어났습니다.
- 만능 엔진은 없으며 성능은 언어 쌍, 문장 길이 및 번역 컨텍스트에 따라 다릅니다.
- 문장이 길수록 모든 엔진에서 더 나은 BLEU 점수를 생성하는 경향이 있으며, 이는 테스트된 모든 언어에서 일관된 패턴으로 관찰됩니다.
- Microsoft 번역가의 단일 세그먼트 번역에서 응답 시간이 가장 빨랐습니다 (중간값: 0.09초), DeepL이 가장 느림(세그먼트당 1초에 가까움).
- 대량 번역 모드에서, Google과 Microsoft는 세그먼트당 초당 속도를 제공했으며, Amazon은 진정한 배치 지원 부족으로 인해 성능이 저조했습니다.
- BLEU 점수는 Friedman과 Nemenyi 테스트로 확인된 엔진 간에 통계적으로 유의미한 차이를 보였으며 이는 일화적 증거를 넘어서는 결과를 입증했습니다.
- 확장성은 동일하지 않습니다: DeepL의 응답 시간은 세그먼트 볼륨이 증가함에 따라 더욱 급격히 증가하며, 이는 대량 사용 사례에서 제한 요소가 될 수 있습니다.
- 모든 엔진은 실시간 애플리케이션에 충분히 잘 작동했지만, 단일 호출 모드의 DeepL과 대량 시나리오의 Amazon은 예외였습니다.
- 브라질 포르투갈어는 평가된 세그먼트 수가 가장 많았으며 이는 연구에서 가장 강력한 언어 쌍 중 하나가 되었습니다.
- 데이터 다양성의 중요성: 사용된 데이터 세트는 의료, 법률, IT와 같은 영역을 다루며 높은 신뢰성으로 실제 번역 요구 사항을 시뮬레이션합니다.
기계 번역 API란 무엇인가요?
기계 번역 API는 개발자와 플랫폼이 기계 학습 모델을 사용하여 언어 간에 텍스트를 자동으로 번역할 수 있도록 하는 클라우드 기반 서비스입니다.
회사는 자체 번역 엔진을 처음부터 구축하는 대신, 이러한 API를 웹사이트, 앱 또는 내부 시스템에 통합하여 빠르고 확장 가능하며 다국어 콘텐츠를 제공할 수 있습니다.
가장 인기 있는 기계 번역 API에는 다음이 포함됩니다:
- Google 번역 API – 100개 이상의 언어를 지원하며 Google Cloud와 쉽게 통합됩니다.
- Amazon Translate – 아시아 언어에서 강력한 성능을 제공하는 빠른 대규모 번역을 위해 설계되었습니다.
- Microsoft 번역가 – 실시간 애플리케이션에 이상적인 90개 이상의 언어를 지원하는 경제적인 옵션.
- DeepL API – 유럽 언어에서 특히 유창성과 뉘앙스 면에서 높은 품질의 번역으로 잘 알려져 있습니다.
이 API는 전자 상거래, 여행, 법률, 의료, 고객 지원, 현지화와 같은 업종에서 널리 사용되며, 정확하고 실시간 번역이 사용자 경험과 운영 효율성을 크게 향상시킬 수 있습니다.
하지만 모든 API가 동일하게 생성되는 것은 아닙니다. 적합한 API를 선택하는 것은 언어 쌍, 속도, 비용, 그리고 물론 번역 품질과 같은 특정 요구 사항에 따라 다릅니다.
기계 번역 엔진
이번 평가를 위해, 우리는 데이터셋의 모든 언어 쌍을 지원하는 네 개의 상업용 기계 번역 엔진을 선택했습니다. 2022년 1월 기준 관련 비용 값과 함께 아래에 설명합니다.
- 아마존 번역: Amazon에 의해 개발된 이것은 70개 이상의 언어에 대한 기계 번역 지원을 제공합니다. Python API는 AWS 서비스와 완전히 통합되며 100만 문자당 15달러의 비용이 듭니다.
- 딥엘: 그것은 기계 번역에 중점을 둔 회사입니다. API는 백만 문자당 USD 25의 비용으로 26개 언어를 지원합니다. 우리는 영어로의 번역을 가능하게 하는 Python API를 사용했습니다.
- 구글 번역: 100개 이상의 언어에 대한 기계 번역 지원을 제공하며, 지원되는 언어에 관해서는 가장 넓은 범위를 가진 엔진입니다. 또한 모든 Google Cloud 서비스와 통합된 Python API를 제공합니다. 번역 가격은 백만 문자당 USD 20입니다.
- Microsoft 번역가: Microsoft에서 제공하는 기계 번역 서비스는 백만 문자당 10달러의 비용이 들며, 평가된 모든 MT 엔진 중 가장 낮은 가격입니다. 이 엔진은 거의 90개 언어를 지원합니다.
선택된 MT 엔진은 각각의 API를 통해 단일 세그먼트를 번역할 수 있으며, Amazon Translate를 제외하고는 여러 세그먼트가 제출되고 한 번에 반환될 때 일괄 호출에도 응답할 수 있습니다.
Amazon Translate의 대량 제한 문제를 해결하기 위해, 매번 번역 시 API에 연결할 필요성을 없애기 위해 단일 호출에서 약간의 코딩 최적화를 수행했습니다. 이는 대량 번역에 가깝지는 않지만 대량 번역 지원이 있는 다른 엔진과의 격차를 줄이는 데 도움이 되었습니다.
언급된 모든 MT 엔진은 특정 용어에 대한 병렬 데이터나 용어집으로 모델을 조정하는 데 적합했지만, 이번 평가에서는 이러한 옵션을 제외하기로 결정했습니다.
우리는 또한 다른 MT 엔진(예: Baidu Translate, Tencent, Systram PNMT, Apertium, Alibaba)을 평가하려고 시도했지만, 다음과 같은 이유로 사용할 수 없었습니다:
- API 이용 불가
- 문서 부족,
- 모든 대상 언어에 대한 지원 없음.
Metrics
우리는 BLEU 점수(Papineni et al., 2002)를 사용하여 엔진의 번역 품질을 평가합니다. Friedman의 검정(Friedman, 1940)을 사용하여 서로 다른 엔진의 점수를 비교하고, 사후 Nemenyi 검정(Nemenyi, 1963)을 사용하여 개별 MT 엔진 간의 통계적으로 유의한 차이를 확인했습니다.
API의 응답 시간을 계산하기 위해 세그먼트 크기 간격의 분포를 고려하여 데이터 세트에서 100개의 세그먼트를 샘플로 선택하고(그림 2), 각 엔진에서 영어에서 포르투갈어로 번역했습니다.
우리는 일주일 동안 하루에 한 번씩 선택한 문장으로 엔진을 가동하여 API의 방법인 단일 및 벌크를 평가했습니다. 전체 데이터 세트를 사용하지 않고 응답 시간을 평가하기 위해 하나의 대상 언어로만 번역했습니다. 이는 7개 언어로 된 20만 개의 세그먼트를 일주일 동안 엔진에 적용하는 것이 재정적으로 비용이 많이 들기 때문입니다.

실험 결과
이 섹션에서는 2장에서 설명한 기계 번역 엔진의 성능에 대한 조사 결과를 제시합니다.
품질 평가
아래 표는 각 대상 언어에 대한 네 개 엔진의 평균 BLEU 점수를 보여줍니다. 모든 언어에서 Friedman 검정의 p-값이 유의 수준(0.05)보다 작았으며, 이는 엔진 점수에 통계적으로 유의한 차이가 있음을 의미합니다. 또한, 사후 Nemenyi 테스트에 따르면 각 언어에서 가장 높은 점수를 받은 엔진은 p-값이 유의 수준인 0.05보다 낮아 다른 엔진과 통계적으로 성능이 달랐습니다. Amazon과 DeepL은 4개의 대상 언어에서 가장 높은 점수로 전반적으로 가장 좋은 결과를 얻었습니다. Google은 스페인어에서 DeepL과, 중국어에서 Amazon과 동률을 이뤘지만, Microsoft 번역 엔진은 어떤 언어에서도 다른 MT 엔진을 능가하지 못했습니다.

다음 그림은 각 대상 언어에서 다양한 세그먼트 크기에 대한 BLEU 점수 분포를 보여줍니다. 이러한 플롯의 일반적인 경향은 문장이 길수록 BLEU 점수가 좋아진다는 것입니다.

예를 들어, 독일어를 대상 언어로 하는 모든 MT 엔진의 중간 점수는 크기가 1에서 10 사이인 세그먼트의 경우 약 0.6이었고, 40단어보다 큰 세그먼트의 경우 0.7에 가까웠습니다.

일본어는 유일한 예외입니다: 세그먼트 크기는 Amazon과 DeepL의 번역 품질에 영향을 미치지 않았지만, Microsoft(1-10 구간의 중앙 BLUE 점수 0.61, 40- 구간의 0.58)와 Google(1-10 구간의 중앙 BLUE 점수 0.62, 40- 구간의 0.6)의 품질에 영향을 미쳤습니다.





번역 시간 평가
한 번에 하나의 세그먼트를 전송하거나(단일) 한 번에 100개의 세그먼트를 전송(대량)할 때, 각 MT 엔진의 세그먼트당 번역 시간 분포를 아래에서 분석할 수 있습니다.

단일 시나리오에서 Microsoft는 가장 빠른 번역(세그먼트당 중앙값 0.09초)을 제공했습니다. Amazon과 Google은 약 두 배 느렸고(중앙값은 0.2초에 가까움), DeepL은 가장 느렸으며(세그먼트당 중앙값 0.96초) Microsoft보다 거의 10배 더 느렸습니다.

단일 API와 비교하여 API의 대량 호출을 사용할 때 가장 먼저 주목해야 할 것은 세그먼트당 번역 시간이 크게 단축되었다는 것입니다. 예를 들어, DeepL의 경우 세그먼트당 번역 시간의 중앙값이 단일 실행에서는 0.95초에서 대량 실행에서는 0.02초로 감소했습니다.
이러한 결과는 대량 작업이 번역을 위해 세그먼트를 개별적으로 전송하는 것보다 훨씬 더 효율적이라는 것을 분명히 보여줍니다. 엔진의 개별 성능과 관련하여, Microsoft와 Google은 각각 세그먼트당 중앙값 0.003초와 0.002초로 가장 낮은 번역 시간을 기록한 반면, Amazon은 중앙값 0.09초로 가장 높은 번역 시간을 기록했습니다.
Amazon의 저조한 성능의 원인은 실제 대량 호출을 제공하지 않기 때문이라고 생각하며, 이는 앞서 언급한 바와 같이 실험에서 근사치를 사용해야 했기 때문입니다.

따라서 평가된 MT 엔진은 세그먼트당 번역 시간이 짧아 실시간 번역 애플리케이션에 적합했습니다. 유일한 예외는 단일 문장의 중간 번역 시간이 1초에 가까운 단일 시나리오에서의 DeepL이었습니다.

엔진의 확장성을 분석하기 위해 세그먼트 수를 변경할 때 MT 엔진의 응답 시간을 아래에 제시합니다. 모든 곡선에서 시간은 세그먼트 수에 따라 선형으로 증가합니다.
그러나 일부 엔진의 선형 계수는 다른 것들보다 훨씬 작습니다. 예를 들어, DeepL은 단일 시나리오에서 가장 높은 계수를 가지고 있으며, Amazon은 대량 시나리오에서 가장 높은 계수를 가지고 있다는 것은 각 시나리오에서 경쟁사만큼 잘 확장되지 않는다는 것을 의미합니다.

결론
이 논문에서는 네 가지 기계 번역 엔진의 품질과 응답 시간에 대한 평가를 제시했습니다. 우리의 평가에 따르면 엔진의 품질은 유사하지만, Amazon과 Deepl이 최고 성능을 보였습니다. 응답 시간과 관련하여, 한 번에 한 세그먼트를 전송할 때 DeepL과 배치 호출에서 Amazon을 제외하고는 전반적으로 엔진이 좋은 성능을 보였습니다.
실험적 설정
이 섹션에서는 실험적 평가에 사용한 설정을 소개합니다. 더 구체적으로, 우리는 실제 데이터셋, 기계 번역 엔진, 그리고 엔진을 평가하는 데 사용된 지표에 대해 설명합니다.
Data

이 평가에 사용된 데이터셋은 전문 번역가가 생성한 13개의 서로 다른 회사의 번역 메모리에서 유래되었으며, 영어를 소스 언어로 하고 7개의 대상 언어를 포함합니다:
- 독일어 (de)
- 스페인어 (sp)
- 프랑스어 (fr)
- 이탈리아어 (it)
- 일본어 (ja)
- 브라질 포르투갈어 (pt)
- 중국어 (zh)
영어로 된 모든 문장은 언급된 대상 언어 중 하나와 적어도 하나의 대응 쌍을 가지고 있습니다. 데이터 세트에는 영어로 된 총 224,223개의 세그먼트와 315,073개의 쌍이 있습니다.
아래 그림은 각 대상 언어에 대한 세그먼트 수의 분포를 보여줍니다. 브라질 포르투갈어가 가장 많은 세그먼트 수(약 60k)를 가진 반면, 일본어와 스페인어는 약 20k 세그먼트로 가장 적습니다. 이 평가를 위한 이 데이터 세트의 중요한 특징은 다양한 주제를 포괄하고 있다는 것입니다.

다음 그림은 영어 세그먼트의 단어 클라우드를 보여줍니다. 보시다시피, 건강, 법률, 정보 기술 등과 관련된 콘텐츠가 있습니다.

데이터 세트는 소스 언어의 텍스트 세그먼트와 대상 언어의 번역이 포함된 참조 목록으로 구성됩니다. 이러한 참조 목록에는 원본 텍스트와 연결된 번역이 최소 하나 이상 있으며, 세그먼트에 하나 이상의 가능한 번역이 있을 수 있으므로 둘 이상의 번역이 있을 수도 있습니다.
우리의 분석을 단순화하기 위해, 아래 그림에 표시된 대로 세그먼트를 크기 10의 범위로 그룹화하여 세그먼트 크기가 엔진 번역의 품질에 미치는 영향을 평가했습니다.

이 논문은…
어떤 종류의 번역을 구현하려는 모든 회사는 이 논문을 읽어야 합니다. 왜냐하면 우리는 각 기계 번역 도구의 품질 및 응답 시간 측면에서 다양한 장점과 단점을 설명하기 때문입니다. 이 심층적인 콘텐츠는 번역 관련 제품 및 서비스를 개선하는 데 적극적으로 참여하는 전문가를 대상으로 합니다, 예를 들어:
- 제품 관리자,
- 프로젝트 관리자,
- 현지화 관리자,
- 엔지니어링 리더,
- 번역가,
- 번역 대행사.
이 논문은 Bureau Works 엔지니어들이 작성했습니다.
Bureau Works는 심층 보고, 발전하는 번역 메모리 및 자동화된 현지화를 가능하게 하는 현지화 플랫폼에서 포괄적인 사내 번역 서비스를 제공합니다.
가장 중요한 것은 현지화의 비즈니스 요소와 기술 요소를 한 지붕 아래 결합한다는 것입니다.
가브리엘 멜로, 루치아노 바르보사, 필리페 데 메네제스, 바닐손 부레지오, 엔리케 카브랄.
Bureauworks, Universidade FederaL de Pernambuco, Universidade FederaL RuraL de Pernambuco
3685 Mt DiabLo BLvd, 라파예트, 캘리포니아, 미국, Av. 모라이스 헤구 교수, 1235, 헤시피, PE, 브라질, 루아 돔 마누엘 드 메데이루스, s/n, 헤시피, PE, 브라질
3685 Mt Diablo Blvd, 라피엣, CA, 미국, Av. Prof. Moraes Rego, 1235, Recife, PE, Brazil, Rua Dom Manuel de Medeiros, s/n, Recife, PE, Brazil
{gabriel.melo, filipe, henrique}@bureauworks.com Luciano@cin.ufpe.br, vanilson.buregio@ufrpe.br