
Tradução sensível ao contexto com modelos de linguagem grandes

A
tradução automática tradicional tem sido problemática há muito tempo, mesmo com a introdução da tradução automática neural e grandes conjuntos de dados de treinamento. Embora possa produzir resultados interessantes quando bem ajustado e treinado para um domínio específico com linguagem previsível e direta, geralmente não é confiável e errático quando aplicado a uma variedade de domínios, idiomas e circunstâncias.
Muitos tradutores respeitáveis ainda não gostam de tradução automática e se recusam a usá-la como um primeiro rascunho ou a reescrever totalmente os feeds. Isso destaca a divisão entre máquinas e humanos, mesmo com a imensa evolução da tradução automática nos últimos anos. Com base em nossa pesquisa, apenas uma pequena porcentagem de tradutores considera a tradução automática um aliado valioso.
A tradução automática tradicional é muito genérica e errática ou muito específica, exigindo circunstâncias específicas para ser eficaz, como grandes volumes de conteúdo com estrutura linguística simples ou segregação de domínio como manuais técnicos, base de conhecimento do produto e literatura de suporte. Mesmo os motores treinados lutam para lidar com inconsistências e discrepâncias entre bases de termos, memórias de tradução e treinamento de corpus linguístico.
Isso inclui glossários atualizados por revisores ou tradutores da empresa após o processo de treinamento, diferenças entre glossários e corpus de treinamento, a necessidade de criar e manter mecanismos específicos para máxima qualidade, memória de tradução desvios do corpus treinado e erros bobos, como traduzir entidades ou outros nomes próprios, e falta de sensibilidade cultural ou linguística.
Esses exemplos resultam em feeds não confiáveis e um processo de revisão desafiador para os tradutores. Além disso, o gerenciamento de modelos de tradução automática ajustados e treinados geralmente requer um ou mais engenheiros de localização dedicados a esses esforços, algo que a maioria das agências de tradução de pequeno e médio porte e os programas de localização não têm largura de banda para.A
tradução baseada no contexto com Large Language Models, no entanto, muda isso. O contexto refere-se a todas as informações que não são o texto em si, mas ajudam o mecanismo a entender o texto e como processá-lo. Exemplos de contexto são glossários, memórias de tradução, comentários anteriores e taxa de rejeição, mas o contexto pode ser qualquer informação. Com Large Language Models que podem levar em consideração bilhões de parâmetros por design, realmente não há limite para quanto contexto você decide trabalhar.
Aqui está um exemplo de consideração do contexto:

Observe como há um feed de memória de tradução de 89% e um feed de tradução automática. O feed TM chama nosso “motor” de “motor” em português, enquanto o MT chama o motor de “mecanismo” em português. No entanto, o glossário especifica que “motor” deve ser mantido como “motor”. Quando processado por meio do BWX Translate, nosso modelo leva em consideração esta preferência (juntamente com outras):

BWX Translate não apenas insere o termo correto de acordo com a versão mais recente do glossário, mas também quaisquer alterações necessárias no texto para que ele seja lido bem no idioma de destino, além de levar em consideração o contexto linguístico oferecido pela memória de tradução.
Com o BWX Translate, grandes modelos de linguagem como ChatGPT podem levar em consideração seu próprio conjunto de dados de treinamento, memórias de tradução específicas, glossários e outro contexto relevante para oferecer aos tradutores um feed de tradução diferenciado, contextualizado e consciente em um determinado projeto. Podemos levar em consideração as atualizações mais recentes de glossários e memórias de tradução em tempo real, o que significa que não há necessidade de enviar glossários e traduções atualizados repetidamente para servidores de tradução automática treinados e ajustados para esperar que eles levem em consideração o preferências lingüísticas.

Com o BWX Translate, você pode treinar e traduzir em tempo real e qualquer projeto de tradução, de qualquer tamanho{10 } memória de tradução e glossário de qualquer tamanho podem se beneficiar de sua fusão textual e recursos probabilísticos linguísticos. Não há tempo de configuração e não há necessidade de treinar de antemão.
Com base em nossa pesquisa inicial, esse mecanismo pode fornecer tradutores com feeds que quebram a resistência de longa data em aproveitar a produção da máquina. Nosso motor também abre a porta para uma conversa entre o tradutor e o motor. Faz mais sentido enriquecer um glossário se você se beneficiar dele instantaneamente, e é mais fácil confiar em uma máquina se você souber por experiência que há pelo menos algo que se assemelha ao pensamento crítico e adaptativo.
Além da tradução baseada no contexto, também abrimos a porta para que os tradutores interajam com modelos de linguagem para que possam ter uma segunda visão sobre suas escolhas, sugestões alternativas , e até mesmo iniciar uma conversa quando necessário.A
tradução baseada no contexto com Large Language Models é mais do que um processo de pré-tradução aprimorado. É um passo firme para o ser humano trabalhar com máquinas para produzir melhor conteúdo com menos esforço e em menos tempo.
Avançando, o contexto continuará a se expandir de maneiras sem precedentes e seremos capazes de criar textos multilíngues levando em conta o comportamento do usuário, análise da web e uma infinidade de outros corpos de informação que podem ser consumido e compreendido por grandes modelos de linguagem. Este é apenas o começo e já mudou tudo.