모범 사례

대형 언어 모델을 활용한 문맥에 따른 번역

기계 번역은 오랫동안 문제가 되어왔으며, 신경망 기계 번역과 대규모 훈련 데이터 세트의 도입에도 불구하고 여전히 문제가 있습니다. 특정 도메인에 대해 정교하게 조정되고 훈련되며 예측 가능하고 간단한 언어로 구성된 경우 흥미로운 결과를 얻을 수 있지만, 다양한 도메인, 언어 및 상황에 적용될 때 일반적으로 신뢰할 수 없고 불안정합니다.
Gabriel Fairman
3분

기계 번역은 오랫동안 문제가 되어왔으며, 신경망 기계 번역과 대규모 훈련 데이터 세트의 도입에도 여전히 문제가 있습니다. 특정 도메인에 대해 정확하고 간단한 언어로 세밀하게 조정되고 훈련된 경우 흥미로운 결과를 얻을 수 있지만, 일반적으로 다양한 도메인, 언어 및 상황에 적용할 때 신뢰성이 없고 불안정합니다.

많은 명성있는 번역가들은 여전히 기계 번역을 싫어하며, 초안으로 사용하거나 피드를 완전히 다시 작성하는 것을 거부합니다. 이는 최근 몇 년 동안 기계 번역의 엄청난 진화에도 불구하고 기계와 인간 사이의 격차를 강조합니다. 우리의 설문 조사에 따르면, 번역가들 중 소수만이 '기계 번역'을 가치 있는 동료로 여기고 있습니다.

전통적인 기계 번역은 일반적이고 불안정하거나 특정한 상황에서만 효과적이기 때문에 너무 구체적입니다. 예를 들어, 단순한 언어 구조나 도메인 분리(예: 기술 매뉴얼, 제품 지식베이스 및 지원 문서)와 같은 대량의 콘텐츠가 필요합니다. 심지어 훈련된 엔진들도 용어베이스, 번역 메모리, 언어 말뭉치 훈련 사이의 일관성과 불일치를 처리하는 데 어려움을 겪습니다.

이에는 훈련 과정 이후 회사 검토자나 번역가들에 의해 업데이트된 용어집, 용어집과 훈련 말뭉치 사이의 차이, 최고 품질을 위해 특정 엔진을 생성 및 유지해야 하는 필요성, 번역 메모리 훈련된 말뭉치에서의 이탈 및 개체나 다른 고유 명사의 번역, 문화적이거나 언어적인 민감성의 부족과 같은 어리석은 실수가 포함됩니다.

이러한 예시들은 신뢰할 수 없는 피드와 번역가들에게 어려운 검토 과정을 야기합니다. 또한, 튜닝 및 훈련된 기계 번역 모델을 관리하는 것은 일반적으로 이러한 노력에 전념하는 하나 이상의 로컬라이제이션 엔지니어가 필요하며, 대부분의 소규모 및 중소 규모의 번역 에이전시 및 로컬라이제이션 프로그램은 이를 위한 대역폭을 갖추고 있지 않습니다.

컨텍스트 인식 번역 은 이러한 상황을 바꿉니다. 문맥은 텍스트 자체가 아닌 텍스트를 이해하고 처리하는 데 도움이 되는 모든 정보를 의미합니다. 컨텍스트의 예로는 용어집, 번역 메모리, 이전 피드백 및 이탈률이 있지만, 컨텍스트는 어떤 정보든 될 수 있습니다. 수십억 개의 매개변수를 고려할 수 있는 대형 언어 모델을 사용하면 작업에 사용할 context의 양에 제한이 없습니다.다음은 컨텍스트를 고려하는 예입니다:

89%의 번역 메모리 피드와 기계 번역 피드가 있는 것에 주목하세요. 번역 메모리 피드는 포르투갈어에서 "엔진"을 "모터"로 부르는 반면, 기계 번역은 "엔진"을 "메커니즘"으로 부릅니다. 그러나 용어집은 "엔진"을 "엔진"으로 유지해야 한다고 명시합니다. BWX 번역을 통해 처리되면, 우리 모델은 이 선호도(및 기타 요소)를 고려합니다:

BWX Translate 는 최신 용어집 버전에 따라 올바른 용어를 삽입할 뿐만 아니라, 대상 언어에서 잘 읽히도록 필요한 변경 사항을 가하며, 번역 메모리가 제공하는 언어적 맥락도 고려합니다. 

BWX Translate를 통해 ChatGPT와 같은 대형 언어 모델은 자체 훈련 데이터 세트, 특정 번역 메모리, 용어집 및 기타 관련 맥락을 고려하여 번역자에게 미묘하고 맥락화된 번역 피드를 제공할 수 있습니다. 우리는 실시간으로 용어집과 번역 메모리의 최신 업데이트를 고려할 수 있습니다. 이는 언어적 선호도를 고려하기 위해 업데이트된 용어집과 번역을 반복해서 훈련 및 조정된 기계 번역 서버에 제출할 필요가 없다는 것을 의미합니다.

BWX 번역을 사용하면 실시간으로 훈련 및 번역할 수 있으며, 어떤 크기의 번역 메모리와 용어집도 텍스트 병합 및 언어적 확률 기능을 통해 이점을 얻을 수 있습니다. 설치 시간이 필요하지 않으며, 미리 훈련할 필요도 없습니다.

초기 연구에 따르면, 이러한 엔진은 기계 출력을 활용하는 데 대한 오랜 저항을 깨는 피드를 번역자에게 제공할 수 있습니다. 또한, 우리의 엔진은 번역가와 엔진 간의 대화의 문을 엽니다. 만약 즉시 혜택을 받을 수 있다면 용어집을 보강하는 것이 더 의미가 있고, 적어도 비판적이고 적응적인 사고와 유사한 것이 있다는 경험으로부터 기계를 신뢰하는 것이 더 쉽습니다.

추가로, 우리는 문맥에 민감한 번역뿐만 아니라 번역가가 언어 모델과 상호작용할 수 있도록 문을 열었습니다. 이를 통해 번역가는 선택 사항에 대한 두 번째 의견, 대안적인 제안 및 필요한 경우 대화를 시작할 수 있습니다.

컨텍스트 인식 번역은 개선된 사전 번역 과정 이상입니다. 이는 기계와 함께 작업하여 더 나은 콘텐츠를 더 적은 노력과 시간으로 생산하기 위한 단단한 한 걸음입니다. ‍컨텍스트에 따른 번역은 대형 언어 모델과 함께 하는 것이 개선된 사전 번역 과정 이상입니다. 이는 인간과 기계가 협력하여 더 나은 콘텐츠를 더 적은 노력과 시간으로 생산하는 단단한 한 걸음입니다. 앞으로 컨텍스트는 전례 없는 방식으로 계속 확장될 것이며, 우리는 사용자의 행동, 웹 분석 및 다양한 정보 자료를 고려하여 다국어 텍스트를 작성할 수 있게 될 것입니다. 이는 단지 매우 초기에 불과하며, 이미 모든 것을 바꾸었습니다.‍ 이것은 단지 매우 초기에 불과하며, 이미 모든 것을 바꾸었습니다.

Gabriel Fairman
Founder and CEO of Bureau Works, Gabriel Fairman is the father of three and a technologist at heart. Raised in a family that spoke three languages and having picked up another three over the course of his life, he's fascinated by the role of language in shaping identity. In recognition of his outstanding contributions, Gabriel was honored with the 2023 Innovator of the Year Award at LocWorld Silicon Valley. He enjoys cooking, playing the guitar, and leading teams toward innovation.

14일 간 무료로 Bureau Works 이용

ChatGPT 통합
지금 시작하기
첫 14일은 무료
기본 지원도 무료 제공