White Paper

Desvendar o significado das medidas de controlo da qualidade da tradução automática

Compreenda as diferentes abordagens para avaliar a qualidade da tradução automática e o que significam para as suas necessidades de tradução e localização.

A tradução automática (MT) está a crescer em popularidade e sofisticação à medida que a tecnologia evolui e as expetativas sobre a qualidade aumentam proporcionalmente. A questão que os clientes de tradução enfrentam é se a qualidade da tradução automática é suficiente para os seus objetivos ou se são necessários processos adicionais de pós-edição e revisão por especialistas humanos.

Cada pós-editor e fornecedor de serviços linguísticos deve determinar se consegue melhorar os resultados da tradução automática em bruto, para estar à altura das expetativas do cliente e a que custo. Este pode ser um problema difícil de resolver, mas que pode ser superado com a metodologia e o conhecimento certos. 

Sabemos que a tradução automática nem sempre é fiável e que o seu resultado em bruto tem de ser revisto, mas como saber se nos irá realmente poupar trabalho quando somos obrigados a manter os padrões de qualidade humanos? Como determinamos a quantidade de esforço que a tradução automática poupa em comparação com uma tradução humana do zero? Afinal de contas, não queremos perder tempo e desperdiçar esforços.

Assim sendo, precisamos de métodos para avaliar a qualidade da tradução automática em bruto. As pessoas esperam que a tradução automática, uma tradução produzida automaticamente, também venha com uma indicação produzida automaticamente da sua correção ou fiabilidade ou, pelo menos, que existam ferramentas para avaliar automaticamente a qualidade da tradução automática e indicar o esforço envolvido na pós-edição. Na verdade, isto não é assim tão fácil.

Mas afinal, como avaliamos a qualidade da tradução?

Para entender melhor como podemos avaliar a qualidade da tradução automática, faz sentido observar como atualmente avaliamos a qualidade da tradução humana.

Os padrões de pontuação para tradução humana incluem (mas não estão limitados a) a Multidimensional Quality Metrics (MQM), Dynamic Quality Framework (DQF) e J2450 Translation Quality Metric. Estes padrões são usados para avaliar critérios de qualidade, como correção linguística, facilidade de compreensão, fluência, adequação cultural, entre outras.

Estes métodos de avaliação produzem normalmente uma pontuação unificada que reflete o número de erros e a sua gravidade em relação ao volume de um determinado texto. Estas pontuações podem ser ajustadas ao caso de uso relevante (usando limites ajustados, por exemplo) para que possa decidir se uma tradução é boa ou má, ou seja, se é adequada aos seus objetivos ou não. Até aqui, tudo bem.

Mas seja qual for o padrão que escolher e o modo como definir os seus limites, a tarefa de detetar e classificar erros de acordo com essas métricas depende inteiramente de revisores humanos.

E aqui está a má notícia de que estava à espera: essa tarefa continua a ser uma tarefa manual e humana, mesmo quando está a avaliar a qualidade da tradução automática.

Então, para que serve a pontuação automática da qualidade da tradução automática?

A resposta é simples: as pontuações automáticas são úteis, mas a sua utilidade depende da resposta que espera.

Os desafios na avaliação da qualidade real da tradução não desaparecem de forma mágica ao passar da tradução humana para a tradução automática. Além disso, existem várias métricas para medir a qualidade da tradução automática e a que deve usar depende do que deseja saber.

Por exemplo, se quiser avaliar se o conteúdo traduzido automaticamente pode ser usado sem pós-edição para um determinado caso de uso, usaria essencialmente a mesma avaliação de qualidade que faria para a tradução humana: um linguista qualificado analisa a tradução e a sua fonte, classifica erros e, em seguida, obtém uma pontuação que indica se a tradução automática em bruto foi aprovada ou rejeitada no contexto relevante. Não há atalho mágico ou maneira de contorná-lo: se quiser ter certeza de que um determinado texto traduzido automaticamente corresponde às suas expetativas de qualidade, precisa de pedir uma revisão humana.

Mas e se for uma questão diferente? E se quiser comparar uma tradução automática com outra tradução automática – isto é, ter uma ideia geral de quão bem um motor de tradução automática específico funciona para um determinado conjunto de teste quando comparado com outros motores? Para avaliações comparativas, o método de substituto de avaliação bilingue (BLEU - bilingual evaluation understudy) pode melhor suprir as suas necessidades.

E, por fim, o que dizer da questão que mais importa num contexto de pós-edição: estamos a economizar esforços na tradução ao efetuar uma pós-edição de uma tradução automática em comparação com a tradução do zero? E, se sim, qual a economia de esforço? Neste caso, se quiser ter certeza de que não está a perder tempo, a distância de pós-edição (PED) pode ser o método de medição de que está à procura.

Vejamos em maior detalhe o BLEU e outros métodos semelhantes e a distância de pós-edição para entender melhor o que medem de facto.

BLEU e outros métodos semelhantes – só há uma resposta certa

A metodologia de pontuação de substituto de avaliação bilingue (BLEU) e métodos semelhantes, como HTER (Human-targeted Translation Error Rate) ou LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall) foram desenvolvidos por engenheiros de tradução automática como uma maneira rápida e económica de avaliar o sucesso de ajuste dos seus motores de tradução automática, porque não exigem o envolvimento de um avaliador humano. No entanto, isto significa que também não oferecem as mesmas respostas que um avaliador humano.


Como funciona o BLEU

O BLEU baseia-se no pressuposto de que existe apenas uma tradução correta para um texto e de que a qualidade da tradução automática é o grau em que um resultado da tradução automática é semelhante a essa tradução. A “tradução correta” é chamada tradução de referência e é uma amostra de texto na língua de partida e na língua de chegada. Em termos mais concretos, é uma amostra anteriormente traduzida por humanos e considerada de boa qualidade.

A medição ocorre, portanto, com base exatamente naquele texto de referência: o texto de partida é traduzido por um ou vários mecanismos de tradução automática e um algoritmo calcula a diferença entre cada resultado de tradução automática e a tradução de referência. O resultado é a chamada pontuação BLEU, que é expressa como um número entre 0 e 1, ou entre 0 % e 100 %: quanto maior a pontuação BLEU, mais semelhantes são os dois textos. 

As desvantagens do BLEU

Embora a maneira como esse método calcula a semelhança seja bastante sofisticada, o principal problema do BLEU e métricas semelhantes é que presumem que há apenas uma tradução correta para cada texto. No entanto, linguistas profissionais entendem que podem existir várias traduções adequadas para um qualquer texto de partida.

Como tal, o BLEU não mede de facto a qualidadeda tradução, mas sim o grau em que um determinado motor pode imitar certos textos de referência.

É fácil perceber que as pontuações BLEU para o mesmo mecanismo de tradução automática serão diferentes dependendo do texto de referência. Também é claro que uma pontuação BLEU obtida com um texto de referência de baixa qualidade não refletirá de forma alguma a qualidade da tradução automática. Além disso, a pontuação dependerá do tamanho da amostra que usa, do conjunto de caracteres das línguas medidas e de outros fatores. Afinal, não é assim tão simples, pois não?

Também está claro que o BLEU não fornecerá um veredito de qualidade sobre novos textos porque requer um cenário de teste com um texto de referência estabelecido (traduzido por humanos). Não pode usar o BLEU para medir a qualidade de traduções automáticas que nunca foram traduzidas por humanos antes, o que o torna inadequado para uma aplicação preditiva.

O BLEU é, no entanto, um instrumento válido para medir o efeito das formações dos motores e, até certo ponto, para comparar os motores de diferentes fornecedores de tradução automática. No entanto, é importante observar que uma pontuação BLEU não é uma característica fixa de um motor de tradução automática, mas sim de um cenário de teste. O mesmo motor terá uma pontuação diferente dependendo da tradução de referência.

O veredito do BLEU

Embora o BLEU se correlacione normalmente com o julgamento humano sobre a qualidade da tradução automática, não responde realmente à questão de qualidade para um determinado texto. Apenas indica qual é a probabilidade de um texto semelhante à tradução de referência estear correto. Além disso, há provas crescentes de que, mesmo neste âmbito limitado de aplicação, o BLEU pode estar no fim da sua vida útil.

Distância de pós-edição - Medição em condições reais

Como funciona a distância de pós-edição

A distância de pós-edição (PED) mede a quantidade de alterações que um texto traduzido automaticamente requer para corresponder às expectativas de qualidade. A principal diferença em comparação com o BLEU é que a tradução de referência humana é de facto feita com base na tradução automática, o que aumenta a probabilidade de que a tradução automática e a tradução humana sejam semelhantes ou idênticas. Isto acontece porque os tradutores com muita experiência em pós-edição não introduzirão mudanças desnecessárias na tradução automática. Portanto, partindo do princípio que os tradutores fizeram o seu trabalho corretamente, a distância de pós-edição reflete muito melhor a adequação da tradução automática para a pós-edição do que o BLEU.

Assim sendo, qualquer linguista com experiência em pós-edição pode fazer a pós-edição para uma análise de distância de pós-edição? Não exatamente. O fator importante aqui é que o tradutor entenda de facto as expectativas de qualidade que o cliente tem para o texto. Uma tradução automática pode soar fluente, sem erros aparentes de significado e ainda assim não preencher os requisitos de qualidade. Por exemplo, a terminologia ou estilo específico do cliente pode não ter sido aplicado, os textos podem exceder as limitações de comprimento ou as informações de formatação podem ter-se perdido. Em suma, o que se quer é um linguista com experiência de pós-edição e conhecimento do cliente.

Com a distância de pós-edição, são necessárias condições reais para obter números fiáveis e a distância de pós-edição pode ser calculada apenas com base na pós-edição que corresponde às expetativas de qualidade. Um algoritmo calcula a diferença entre a tradução automática em bruto e a tradução pós-editada e emite um valor por segmento e por amostra de texto. Este valor indica a percentagem de tradução automática em bruto que foi reutilizada pelo tradutor, partindo de 100 % (o tradutor não fez alterações no segmento ou texto) e diminuindo a partir daí. Pontuações de distância de pós-edição elevadas indicam uma vantagem real na eficiência para o tradutor.

Como é que as pontuações de distância de pós-edição se relacionam com o esforço de pós-edição?

A regra aqui é que quanto maior a pontuação da distância de pós-edição, menor o esforço. Contudo, como acontece com as correspondências de memória de tradução, há um certo limite de percentagem que deve ser alcançado para representar vantagens reais na eficiência. Se o valor de distância de pós-edição geral para um determinado tipo de texto estiver consistentemente abaixo deste limite, a tradução automática não economiza tempo.

Assim, um valor de distância de pós-edição elevado significa que o tradutor não realizou nenhum esforço e tem que pagar pela pós-edição se a distância de pós-edição estiver próxima de 100%? A resposta é: se quiser pós-edição, isso terá um custo. É importante notar que mesmo com um valor de distância de pós-edição muito alto, o esforço dos tradutores não é zero: fizeram uma revisão completa do texto de chegada e compararam com o texto de partida, validando que a terminologia aplicada pelo sistema de tradução automática é a correta e podem ter realizado pesquisas adicionais ou obtido esclarecimentos e por aí fora. Portanto, o esforço de pós-edição nunca é zero,  mesmo quando quase não há alterações. Isto é comparável a uma segunda opinião de um médico: o facto de os dois médicos chegarem à mesma conclusão, não significa que o segundo não teve de avaliar o paciente minuciosamente. 

Previsões fiáveis de esforço de pós-edição

Ao avaliar os valores de distância de pós-edição em volumes suficientemente grandes de texto semelhante pode obter uma indicação fiável do esforço envolvido e quantificar as vantagens na eficiência. Pequenas amostras não são uma base adequada para este tipo de análise, pois podem resultar em números de distância de pós edição que são muito positivos ou negativos e, em última análise, não representam os resultados médios reais. Felizmente, testar com volumes adequados não significa adicionar custos ao seu processo normal de tradução. Somos especialistas nesta matéria, por isso, não hesite em pedir ao seu contacto na Amplexor um piloto de tradução automática e aprenda a calcular o seu potencial de economia. 

Qualidade da tradução automática - Qual o melhor sistema?

Na Amplexor, sabemos o que é necessário para produzir traduções de elevada qualidade e escolhemos os nossos tradutores humanos e motores de tradução de acordo com base nisso.

Trabalharíamos com um tradutor humano que oferece qualidade superior, mas é famoso por partilhar o conteúdo dos seus clientes em plataformas sociais e divulgar segredos comerciais? Ou com alguém que não consegue cumprir os requisitos técnicos e introduz com frequência erros em estruturas e formatos XML? Só se fossemos loucos! E também seria uma loucura ficar com qualquer fornecedor de serviços linguísticos que permitisse tal comportamento.

Além disso, pediríamos a um único tradutor para realizar traduções em todas as nossas línguas de chegada e para todos os temas? Mais uma vez, só se fossemos loucos!

As mesmas considerações são relevantes para a tradução automática e desenvolvemos uma abordagem lúcida para o desafio: aplicamos uma série de critérios quando se trata da seleção do motor de tradução automática e nem todos os critérios são estritamente sobre a qualidade do resultado linguístico, embora seja uma peça crucial do quebra-cabeça. Por forma a aplicar com segurança e eficiência a tradução automática nos nossos processos, também consideramos a confidencialidade, a disponibilidade de uma oferta de serviço sustentável (incluindo API), o custo geral e a robustez geral do sistema.

Definimos robustez como a capacidade de produzir boa qualidade linguística fora das condições de laboratório, o que inclui tolerância a erros de digitação do texto de partida, frases incompletas, formatação criativa e frases em línguas estrangeiras nos ficheiros de partida. Além disso, avaliamos a qualidade da integração na ferramenta de memória de tradução relevante.

Em última análise, não existe uma solução única para todos e é necessário um contexto concreto para responder à questão: qual é o "melhor" sistema de tradução automática. A tecnologia evolui rapidamente e as nossas tecnologias preferidas do ano passado podem não ser as melhores opções hoje. Acompanhamos o que há de mais moderno no setor para que não precise ser um especialista em tradução automática e monitorizamos o mercado para que possa selecionar o melhor mecanismo possível para o seu cenário.

Conclusão

Afinal, os chamados indicadores de qualidade da tradução automática, como BLEU, LEPOR, TER ou PED, na verdade não medem a qualidade como tal. Mas há boas notícias: estes fornecem-nos os indicadores-chave de desempenho de que precisamos para tomar decisões de qualidade.

Em termos práticos, medir a qualidade linguística real na tradução, seja ela humana ou gerada automaticamente, ainda é um exercício manual. De momento, não existe um índice de qualidade automatizado e é por isso que ter os especialistas certos para todas línguas de chegada relevantes disponíveis é uma grande vantagem quando se trata de escolher o sistema certo e avaliar novas tecnologias.

Dado o ritmo da evolução tecnológica, podem em breve surgir mais soluções automatizadas para avaliar a qualidade da tradução. Até lá, a Amplexor tem tudo sob controlo.

Se quiser saber mais sobre os indicadores de qualidade de tradução automática e testar a nossa abordagem "Tradução automática por medida",