Livre blanc

Les méthodes d'évaluation qualité de la traduction automatique

Comprendre les différentes approches de l'évaluation qualité de la traduction automatique et leur incidence sur vos projets de traduction et de localisation.

Grâce aux récentes avancées technologiques, la traduction automatique (MT) gagne en notoriété et en sophistication, alors que les exigences en matière de qualité augmentent. La question se pose vite de savoir si la qualité de la MT est suffisante pour les besoins de traduction, ou s'il faut recourir à des processus supplémentaires de post-édition et de révision par des experts.

Il revient au prestataire de services linguistiques de déterminer si les résultats de la traduction automatique brute peuvent être améliorés pour mieux répondre aux attentes du client, et à quel coût. Cela peut paraître complexe. Cependant, une méthodologie adaptée alliée à du savoir-faire peut contribuer à apporter une réponse à ces questions. 

Le résultat de la MT brute n'est pas toujours fiable et nécessite une révision, mais comment savoir si elle va être un gain de temps surtout quand il faut maintenir un standard de qualité de traduction dite « humaine » ? Comment déterminer le gain de temps et d'efforts obtenu par rapport à une traduction « humaine » sans outil ? Personne ne souhaite perdre son temps et son énergie.

Nous avons donc besoin de méthodes d'évaluation qualité de la traduction automatique brute. On s'attend généralement à ce que la MT, qui est une traduction produite automatiquement, nous fournisse aussi une indication automatique du niveau d'exactitude ou de fiabilité, ou du moins, à ce qu'il existe des outils pour évaluer automatiquement la qualité de la MT et nous indiquer le temps que prendra la post-édition. Malheureusement, ce n'est pas si simple.

Commençons par le début : comment évaluer la qualité d'une traduction ?

Pour mieux comprendre comment évaluer la qualité de la traduction automatique, étudions tout d'abord l'évaluation de la qualité d'une traduction humaine.

Les exigences de notation de la traduction humaine comprennent (mais sans s'y limiter) les indicateurs qualité multidimensionnels (Multidimensional Quality Metric - MQM), les cadres dynamiques de qualité (Dynamic Quality Frameworks - DQF) et l'indicateur de qualité J2450. Ces normes sont utilisées pour évaluer plusieurs critères de qualité. La traduction doit être exacte d'un point de vue linguistique, compréhensible, fluide, ciblée, etc.

Ces méthodes d'évaluation permettent généralement d'obtenir un score global qui reflète le nombre d'erreurs et leur gravité par rapport à un certain volume de texte. Les résultats obtenus peuvent être adaptés au cas par cas (à l'aide de seuils prédéfinis, par exemple). Vous pouvez ainsi décider si une traduction est bonne ou mauvaise – c'est-à-dire si elle est adaptée à vos besoins ou non. Jusqu'ici, tout va bien.

Mais quelles que soient la norme choisie et la manière de définir les seuils de notation, ce sont les réviseurs qui au final repèrent et classifient les erreurs.

En conclusion, cette tâche reste manuelle et humaine, même pour l'évaluation qualité d'une traduction automatique.

Alors quel est l'intérêt d'une évaluation automatique de la qualité d'une MT ?

La réponse est simple : les scores automatiques sont utiles, mais leur utilité dépend de la réponse que vous attendez.

Le passage de la traduction humaine à la traduction automatique ne fait pas disparaître comme par magie les défis posés par l'évaluation de la qualité d'une traduction à proprement parler. En outre, il existe différents indicateurs de mesure de la qualité de la traduction automatique et votre choix dépendra de ce que vous voulez savoir.

Par exemple, si vous cherchez à déterminer si oui ou non un contenu traduit automatiquement peut être utilisé sans post-édition dans un cas précis, alors vous utiliserez la même évaluation qualité que pour une traduction humaine : à savoir un linguiste qualifié qui révise la traduction par rapport au source, classe les erreurs et obtient un score qui indiquera si la MT brute est adaptée ou non. Pas de formule magique ni de raccourci : si vous voulez vous assurer qu'un texte traduit automatiquement satisfait à vos exigences de qualité, vous devez recourir à un linguiste.

Mais peut-être souhaitez-vous évaluer autre chose ? Par exemple, comparer deux traductions automatiques – c'est-à-dire, avoir une idée générale de la façon dont un moteur de MT se distingue des autres ? Pour les évaluations comparatives, la méthode « BLEU » (BiLingual Evaluation Understudy) pourrait être la mieux adaptée à vos besoins.

Enfin, qu'en est-il de la question qui importe le plus dans un contexte de post-édition : une traduction en post-édition est-elle plus économique qu'une traduction sans outils ? Et si c'est le cas, dans quelles proportions ? Si vous voulez être sûr de ne pas déployer trop d'efforts inutiles, la distance de post-édition (PED) pourrait être la méthode qu'il vous faut.

Regardons plus en détail la méthode « BLEU » et similaires ainsi que la méthode « PED » pour mieux comprendre ce qu'elles permettent d'évaluer.

Méthode « BLEU » et méthodes similaires : une seule bonne réponse

La méthode de notation « BLEU » et autres méthodes similaires telles que « HTER » (Human-targeted Translation Error Rate) ou « LEPOR » (Length Penalty, Precision, n-gram Position difference Penalty and Recall) ont été élaborées par des ingénieurs de MT comme une solution rapide et abordable d'évaluer la performance de leur moteur de MT. Elles ne nécessitent en effet aucune intervention humaine. Toutefois, cela signifie aussi qu'elles n'apportent pas les mêmes réponses qu'un linguiste.


Fonctionnement de la méthode « BLEU »

La méthode « BLEU » repose sur l'hypothèse qu'il n'y a qu' une seule bonne traduction pour un texte. La qualité de la MT correspond alors au degré de similarité entre le résultat de la MT et cette traduction. La « bonne traduction » est appelée « traduction de référence ». C'est un échantillon de texte en langue source et en langue cible. En d'autres termes, cet échantillon a été préalablement traduit par un vrai traducteur et est considéré comme étant de bonne qualité.

La mesure repose donc sur ce texte de référence : le texte source est traduit par un ou plusieurs moteurs de MT et un algorithme calcule la différence entre chaque résultat de MT et la traduction de référence. Le résultat obtenu est le score « BLEU », qui est exprimé sous forme de chiffre entre 0 et 1, ou entre 0 % et 100 % : plus le score BLEU est élevé, plus les deux textes sont similaires. 

Les lacunes de la méthode « BLEU »

Bien que le calcul de la similarité soit plutôt poussé, le principal problème avec la méthode « BLEU » et les indicateurs similaires est qu'ils partent du principe qu'il n'existe qu'une seule bonne traduction pour chaque texte. Or, les linguistes professionnels savent bien qu'il peut y en avoir plusieurs.

Ainsi, la méthode « BLEU » ne mesure pas réellement la qualité de la traduction, mais plutôt la capacité d'imitation de certains textes de référence par un moteur.

Les scores BLEU relatifs à un même moteur de MT varieront en fonction du texte de référence. Il est également logique qu'un score BLEU obtenu avec un texte de référence de mauvaise qualité ne reflétera pas du tout la qualité de la MT. De plus, le score dépend du volume de l'échantillon, du jeu de caractères de la langue évaluée, etc. Ce n'est finalement plus aussi simple, n'est-ce pas ?

Il apparaît également clairement que la méthode « BLEU » ne fournira pas un verdict de qualité sur de nouveaux textes, car elle doit reposer sur un texte de référence établi (traduit par une personne). Vous ne pouvez pas l'utiliser pour mesurer la qualité de traductions automatiques qui n'ont jamais été traduites par des humains, ce qui la rend inadaptée à une application prédictive.

Cela reste toutefois un instrument utile pour mesurer l'efficacité de l'entraînement des moteurs de MT et, dans une certaine mesure, pour comparer les moteurs de différents fournisseurs de MT. Il faut cependant rappeler qu'un score BLEU n'est pas la caractéristique fixe d'un moteur de MT, mais plutôt un scénario de test. Le même moteur obtiendra un score différent en fonction de la traduction de référence utilisée.

Le verdict BLEU

Bien que la méthode « BLEU » soit généralement liée au jugement humain de la qualité d'une MT, elle ne mesure pas réellement la qualité d'un texte donné. Elle indique simplement la probabilité qu'un texte semblable à la traduction de référence soit correct. Il apparaît de plus en plus clairement que même dans ce champ d'application limité, BLEU pourrait être en fin de course.

La distance de post-édition : mesurer dans des conditions réelles

En quoi consiste la PED ?

La distance de post-édition (post-edit distance, PED) correspond au pourcentage de modifications effectuées sur la traduction automatique jusqu'à obtenir une traduction de qualité suffisante. La principale différence par rapport à la méthode « BLEU » est que la traduction de référence faite par un humain est effectuée sur la base de la MT, ce qui augmente la probabilité que la traduction automatique et la traduction humaine soient similaires ou identiques. Les traducteurs avec de solides bases en post-édition sont en effet moins susceptibles d'apporter des modifications inutiles à la MT. En partant du principe que les traducteurs ont fait leur travail correctement, la PED reflète alors bien mieux l'adéquation entre MT et post-édition que la méthode « BLEU ».

Tout traducteur avec de bonnes bases en post-édition peut-il effectuer un travail de post-édition pour une analyse PED ? Pas vraiment. Le facteur à prendre en compte ici est que le traducteur connaît les attentes du client en matière de qualité. Une traduction automatique peut sembler fluide, sans erreur de sens apparente, et pourtant ne pas avoir le niveau de qualité requis. Par exemple : terminologie ou style propre au client non respecté, limitation de caractères non suivie, informations de formatage perdues, etc. En bref, un linguiste avec une expérience en post-édition et au fait des exigences du client sera toujours préférable.

Avec la PED, des conditions réelles sont nécessaires pour obtenir des chiffres fiables, et la distance de post-édition peut être calculée uniquement sur la base d'une post-édition conforme au niveau de qualité attendu. Un algorithme calcule la différence entre la MT brute et la traduction post-éditée et émet une valeur par segment et par échantillon de texte. Cette valeur indique le pourcentage de MT brute réutilisée par le traducteur, en partant de 100 % (le traducteur n'a effectué aucun changement au segment ou texte) et en allant en décroissant. Des scores de PED élevés indiquent un réel gain d'efficacité pour le traducteur.

Comment les scores de PED reflètent-ils l'effort de post-édition nécessaire ?

En règle générale, plus le score de PED est élevé, moins l'intervention sera conséquente. Toutefois, au même titre que les correspondances des mémoires de traduction, un certain pourcentage limite doit être atteint pour qu'il y ait de réels gains d'efficacité. Si la valeur de PED totale d'un type de texte est inférieure à ce seuil, la MT ne permettra pas de gagner du temps.

Dans ce cas, est-ce qu'un score de PED élevé signifie que le traducteur n'a pas effectué de modifications et devez-vous payer pour la post-édition si la PED est proche de 100 % ? La réponse est la suivante : tout travail de post-édition a un coût. Il est important de noter que même avec une valeur de distance de post-édition élevée, l'intervention du traducteur n'a pas été nulle : il a effectué une révision complète du texte cible qu'il a comparé au texte source, a vérifié que la terminologie appliquée par la MT était correcte, a éventuellement effectué des recherches supplémentaires ou demandé des précisions, etc. Par conséquent, l'effort de post-édition n'est jamais nul, même lorsqu'il n'y a pratiquement aucune modification. Comme pour un avis médical : le fait que les deux médecins parviennent à la même conclusion ne signifie pas que le deuxième n'a pas procédé à un examen approfondi du patient. 

Estimation fiable du travail de post-édition

En évaluant les valeurs de PED sur de gros volumes de texte, vous pouvez avoir une indication fiable de l'intervention nécessaire et une estimation des gains d'efficacité. De petits échantillons anecdotiques ne constituent pas une base suffisante pour ce genre d'analyse : les chiffres de PED obtenus peuvent être trop positifs ou négatifs et finalement ne pas être représentatifs des résultats réels moyens. Heureusement, les tests effectués sur des volumes adéquats ne signifient pas que des coûts supplémentaires devront être appliqués à votre processus de traduction normal. Nous sommes experts en la matière, alors n'hésitez pas à demander à votre interlocuteur chez Amplexor un pilote de traduction automatique pour apprendre à calculer les économies que vous pourriez réaliser. 

Qualité de la traduction automatique : quel est le meilleur système ?

Chez Amplexor, nous savons comment produire des traductions d'excellente qualité et choisissons nos traducteurs et moteurs de MT en conséquence.

Serions-nous prêts à travailler avec un traducteur qui produit un travail d'excellente qualité, mais qui est connu pour partager le contenu de ses clients sur les réseaux sociaux et dévoiler des données confidentielles ? Ou avec un traducteur incapable de se conformer aux exigences techniques et qui introduit régulièrement des erreurs dans les structures et formats XML ? Il faudrait être inconscient ! Tout comme vous auriez tort de faire confiance à un prestataire de services linguistiques qui tolérerait de tels comportements.

De la même manière, demanderait-on à un seul traducteur de réaliser des traductions dans toutes nos langues cibles et dans tous les domaines ? Là encore, ce serait insensé.

Les mêmes considérations valent pour la MT. Nous avons développé une approche rationnelle à cet égard : pour choisir un moteur de MT, nous appliquons une série de critères. Tous ces critères ne portent pas strictement sur la qualité des résultats linguistiques – bien que ce soit une pièce essentielle du puzzle. Afin d'intégrer la traduction automatique dans nos processus de façon sûre et efficace, nous tenons aussi compte de la confidentialité, de la disponibilité d'une offre de service durable (y compris en matière d'API), des coûts totaux et de la solidité générale du système.

On entend par « solidité » la capacité à produire une bonne qualité linguistique en dehors des conditions de « laboratoire » : la tolérance des fautes dans le texte source, les phrases incomplètes, le formatage créatif et les expressions en langue étrangère dans les fichiers sources. De plus, nous évaluons la qualité d'intégration dans l'outil de mémoire de traduction adéquat.

Au final, il n'y a pas de solution universelle : un contexte est nécessaire pour déterminer le système de MT le mieux adapté. La technologie évolue rapidement et nos technologies de prédilection l'an dernier peuvent ne pas être les meilleures options aujourd'hui. Nous restons à la pointe des avancées du secteur pour que vous n'ayez pas à être vous-même un spécialiste de la MT et nous suivons le marché avec attention pour que vous puissiez choisir le moteur le mieux adapté à votre projet.

Conclusion

Les indicateurs de qualité de la MT comme BLEU, LEPOR, TER ou PED s'avèrent finalement insuffisants pour mesurer la qualité en tant que telle. Mais la bonne nouvelle, c'est qu'ils nous fournissent les KPI dont nous avons besoin pour prendre les bonnes décisions en matière de qualité.

D'un point de vue pratique, l'évaluation de la qualité linguistique réelle d'une traduction (qu'elle soit humaine ou automatique) reste un exercice manuel. Il n'existe actuellement pas de score de qualité automatisé. C'est la raison pour laquelle il est très avantageux d'avoir dans ses équipes des experts dans toutes les langues cibles pour choisir le bon système et évaluer les nouvelles technologies.

Au vu de l'évolution rapide des technologies, de plus en plus de solutions automatisées d'évaluation qualité des traductions devraient voir le jour. En attendant, Amplexor est là pour vous guider.

Si vous voulez en savoir plus sur les indicateurs de qualité de la MT et tester une approche adaptée,