Libro blanco

Desvelando el significado de las medidas de calidad en traducción automática

Comprensión de los distintos enfoques para evaluar la calidad de la traducción automática y lo que significa para tus necesidades de traducción y localización.

La traducción automática (TA) se vuelve cada vez más popular y sofisticada a medida que la tecnología evoluciona y, por lo tanto, las expectativas sobre la calidad también aumentan. La cuestión que se plantea a los clientes de traducción es si la TA tiene la calidad suficiente para lograr sus objetivos o si se necesitan una posedición humana experta y procesos de revisión adicionales.

Todos los poseditores y proveedores de servicios lingüísticos deben determinar si pueden mejorar los resultados sin revisar de la traducción automática para satisfacer las expectativas de los clientes y a qué precio. Puede ser un problema difícil de resolver, aunque puede afrontarse con la metodología y los conocimientos adecuados. 

Sabemos que la TA no siempre es fiable y que su resultado inicial tiene que revisarse, ¿pero cómo sabemos si de verdad nos ahorrará trabajo cuando se nos exige mantener los estándares de calidad humana? ¿Cómo determinamos el esfuerzo que ahorra en comparación con una traducción humana hecha desde cero? Después de todo, no queremos malgastar tiempo y esfuerzo.

Con eso en mente, necesitamos métodos para evaluar la calidad de la traducción automática sin revisar. La gente suele esperar que la TA, una traducción producida de manera automática, también venga acompañada de una indicación automática de su exactitud o fiabilidad o que al menos haya herramientas para valorar automáticamente la calidad de la TA e indicar el esfuerzo invertido en la posedición. Lamentablemente, no es tan fácil.

En todo caso, ¿cómo evaluamos la calidad de la traducción?

Para entender mejor cómo podríamos evaluar la calidad de la traducción automática, tiene sentido observar cómo evaluamos actualmente la calidad de la traducción humana.

Las normas de calificación para la traducción humana incluyen, entre otras, los Multidimensional Quality Metrics (parámetros de calidad multidimensionales, MQM), el Dynamic Quality Framework (marco de calidad dinámico, DQF) y el J2450 Translation Quality Metric (parámetro de calidad de traducción J2450). Estas normas se usan para evaluar criterios de calidad como la exactitud lingüística, la inteligibilidad, la fluidez, la adecuación cultural, etc.

Estos métodos de evaluación normalmente generan una puntuación unificada que refleja el número de errores y su gravedad en relación con el volumen de un texto determinado. Estas puntuaciones pueden adaptarse al caso de uso correspondiente (por ejemplo, utilizando umbrales ajustados) para que puedas decidir si una traducción es buena o mala, es decir, si se adecua tus objetivos o no. Hasta aquí, todo bien.

Pero, independientemente de la norma que elijas y de los umbrales que se definan, detectar y clasificar errores según esos parámetros es una tarea que depende enteramente de revisores humanos.

Y aquí llega la mala noticia que estabas esperando: esta tarea sigue siendo manual y humana, incluso cuando se evalúa la calidad de la traducción automática.

Entonces, ¿de qué sirve calificar automáticamente la calidad de la traducción automática?

La respuesta es simple: las puntuaciones automatizadas son útiles, pero su utilidad depende de la respuesta que esperes.

Los desafíos a la hora de evaluar la calidad real de la traducción no desaparecen mágicamente cuando pasas de la traducción humana a la automática. Además, hay varios parámetros para medir la calidad de la traducción automática. El que debes usar depende de lo que quieras saber.

Por ejemplo, si quieres evaluar si el contenido traducido automáticamente se puede utilizar sin posedición para un determinado caso de uso, se utilizaría fundamentalmente la misma evaluación de calidad que con la traducción humana: un lingüista cualificado revisa la traducción y el texto original, clasifica los errores y obtiene una puntuación que indica si la traducción automática sin revisar es apta o no dentro del contexto correspondiente. No hay un atajo mágico ni una forma de evitarlo: si quieres estar seguro de que un texto traducido automáticamente cumple tus expectativas de calidad, será necesaria una revisión humana.

Pero, ¿qué ocurre si tienes una cuestión diferente? ¿Qué ocurre si quieres comparar una TA con otra, es decir, tener una idea general de lo bien que funciona un motor de TA específico para un conjunto de pruebas determinadas en comparación con otros motores? Para evaluaciones comparativas, el método suplente de evaluación bilingüe (BLEU) podría ajustarse mejor a tus necesidades.

Y, por último, la pregunta más relevante en un contexto de posedición: ¿nos ayuda la posedición de TA a ahorrar esfuerzo en comparación con traducir desde cero? De ser así, ¿cuánto ahorramos? En este caso, si quieres asegurarte de que no estás perdiendo el tiempo, la distancia de posedición (PED) podría ser el método de medición que estás buscando.

Veamos con más detenimiento el BLEU y otros métodos similares y la PED para entender mejor qué miden exactamente.

BLEU y métodos similares: solo hay una respuesta correcta

La metodología de calificación suplente de evaluación bilingüe (BLEU) y otros métodos similares, como la HTER (tasa de errores de traducción humana) o la LEPOR (penalización de longitud, precisión, penalización de diferencia de posición de n-gramas y recuperación), fueron desarrollados por los ingenieros de TA como una manera rápida y económica de evaluar el funcionamiento de su motor de TA, ya que no requieren la participación de un evaluador humano. Sin embargo, esto significa que tampoco ofrecen las mismas respuestas que un evaluador humano.


Cómo funciona el BLEU

El BLEU se basa en la suposición de que solo hay una traducción correcta para un texto y que la calidad de la TA es el nivel en el que el resultado de la TA es similar a esa traducción. La «traducción correcta» se llama traducción de referencia y es una muestra del texto en el idioma de origen y en el de destino. En términos más concretos, es una muestra que tradujo un traductor humano anteriormente y que se considera de buena calidad.

Por lo tanto, la medición se realiza basándose exactamente en el texto de referencia: uno o varios motores de TA traducen el texto original y un algoritmo calcula la diferencia entre cada resultado de TA y la traducción de referencia. El resultado es la llamada puntuación BLEU, que se expresa en un número entre el 0 y el 1, o entre 0 % y 100 %: cuanto más alta sea la puntuación BLEU, más parecidos serán los dos textos. 

Las deficiencias del BLEU

Aunque la forma en que este método calcula la similitud es bastante sofisticada, el principal problema del BLEU y de otros parámetros similares es que asumen que solo hay una traducción correcta para cada texto. Sin embargo, los lingüistas profesionales generalmente entienden que puede haber varias traducciones correctas para un texto original.

Por tanto, el BLEU no mide realmente la calidad de la traducción, sino el grado en que un determinado motor puede imitar ciertos textos de referencia.

Es fácil entender que las puntuaciones BLEU para el mismo motor de TA serán diferentes según el texto de referencia. También está claro que una puntuación BLEU obtenida con un texto de referencia de baja calidad no reflejará en absoluto la calidad de la TA. Además, la puntuación dependerá del tamaño de la muestra que uses, del conjunto de caracteres de las lenguas medidas y de otros factores. Ahora no parece tan fácil, ¿verdad?

También está claro que el BLEU no ofrecerá un veredicto de calidad sobre los nuevos textos porque necesita un escenario de prueba con un texto de referencia (traducido por humanos) establecido. No puedes utilizar el BLEU para medir la calidad de las traducciones automáticas que no hayan sido traducidas por humanos antes, lo que lo hace inadecuado para una aplicación predictiva.

Sin embargo, el BLEU es un instrumento válido para medir el efecto de los entrenamientos del motor y, hasta cierto punto, para comparar los motores de distintos proveedores de TA. No obstante, es importante tener en cuenta que una puntuación BLEU no es una característica fija de un motor de TA, sino de un escenario de prueba. El mismo motor obtendrá una puntuación diferente en función de la traducción de referencia.

El veredicto BLEU

Aunque el BLEU suele tener una correlación con el criterio humano sobre la calidad de la TA, en realidad no responde a la cuestión de la calidad de un texto determinado. Simplemente indica la probabilidad de que un texto similar a la traducción de referencia sea correcto. Además, cada vez hay más pruebas de que, incluso en este ámbito de aplicación, el BLEU podría estar cerca del fin de su vida útil.

Distancia de PE: medición en condiciones reales

Cómo funciona la PED

La distancia de posedición (PED, por sus siglas en inglés) mide la cantidad de edición que requiere un texto traducido de manera automática para cumplir las expectativas de calidad. La diferencia principal en comparación con el BLEU es que la traducción humana de referencia se realiza sobre la base de la TA, lo que incrementa la probabilidad de que la traducción automática y la traducción humana sean similares o idénticas. Esto se debe a que los traductores con una formación sólida en posedición no introducirán cambios innecesarios en la TA. Por lo tanto, partiendo de la base de que los traductores han hecho su trabajo correctamente, la PED refleja la idoneidad de la TA mucho mejor que el BLEU.

¿Cualquier lingüista con experiencia en posedición puede encargarse de la posedición para un análisis de PED? No exactamente. En este caso, el factor relevante es que el traductor realmente entiende las expectativas de calidad del cliente respecto al texto. Una traducción automática puede sonar fluida, puede parecer que no tiene errores aparentes de significado y aun así no cumplir los requisitos de calidad. Por ejemplo, la terminología específica del cliente o el estilo pueden no haberse aplicado, los textos pueden superar las limitaciones de longitud o la información de formato podría haberse perdido. En resumen, necesitarás un lingüista con experiencia en posedición y conocimiento sobre el cliente.

Con la PED se requieren condiciones reales para obtener cifras fiables y la distancia de posedición solo puede calcularse basándose en una posediciónque cumpla las expectativas de calidad. Un algoritmo calcula la diferencia entre la TA sin revisar y la traducción poseditada y emite un valor por segmento y por muestra de texto. Este valor indica el porcentaje de TA sin revisar que el traductor ha reutilizado, parte del 100 % (el traductor no hizo cambios en el segmento o texto) y va disminuyendo a partir de ese valor. Las puntuaciones de PED altas indican un aumento real de la eficiencia del traductor.

¿Cómo se relacionan las puntuaciones de PED con el esfuerzo de posedición?

En este caso, la regla general es que cuanto mayor sea la puntuación de PED, menor sera el esfuerzo. Sin embargo, al igual que con las coincidencias de la memoria de traducción, hay un determinado umbral porcentual que se debe alcanzar para que represente un auténtico incremento de la eficiencia. Si el valor de PED global de un tipo de texto determinado está constantemente por debajo de este umbral, la TA no ahorra tiempo.

¿Un valor de PED alto significa que no hubo esfuerzo por parte del traductor? ¿Tendrás que pagar por la posedición si la PED está cerca del 100 %? La respuesta es que si quieres posedición, tendrá un coste. Es importante tener en cuenta que incluso con un valor alto de distancia de posedición, el esfuerzo del traductor no es inexistente: han llevado a cabo una revisión completa del texto meta y lo han comparado con el texto origen, han validado que la terminología aplicada por el sistema de TA es la correcta, es probable que hayan realizado una investigación adicional o que hayan hecho una aclaración, etc. Por lo tanto, el esfuerzo de posedición nunca es inexistente, incluso cuando no hay demasiadas modificaciones. Esto se puede comparar con una segunda opinión de un médico: el hecho de que los dos doctores hayan llegado a la misma conclusión no significa que el segundo no haya tenido que examinar al paciente a fondo. 

Predicciones fiables del esfuerzo de posedición

Si se evalúan los valores de PED en volúmenes lo suficientemente grandes de texto similar, puedes obtener una indicación fiable del esfuerzo realizado y cuantificar el aumento de la eficiencia. Las pequeñas muestras anecdóticas no son una base adecuada para este tipo de análisis, ya que pueden tener como resultado cifras de PED que sean demasiado positivas o negativas y que, en última instancia, no representen los resultados medios del mundo real. Por suerte, hacer pruebas con volúmenes adecuados no significa añadir costes a un proceso normal de traducción. En ese aspecto sabemos lo que hacemos, por eso no dudes en pedir a tu contacto en Amplexor una prueba de traducción automática para descubrir cómo calcular tu potencial de ahorro. 

Calidad de la traducción automática: ¿qué sistema es mejor?

En Amplexor, sabemos lo que se necesita para producir traducciones de alta calidad y elegimos a nuestros traductores humanos y motores de traducción automática en consonancia.

¿Trabajaríamos con un traductor humano que ofrece un trabajo de calidad superior, pero que es conocido por compartir el contenido de sus clientes en las redes sociales y por divulgar secretos empresariales? ¿O con uno que no es capaz de cumplir los requisitos técnicos e introduce regularmente errores en estructuras XML y formatos? Estaríamos locos si lo hiciéramos. Y tú también lo estarías si te quedases con un proveedor de servicios lingüísticos que permita ese comportamiento.

Es más, ¿pediríamos a un único traductor que hiciese las traducciones a todas nuestras lenguas meta y de todos los temas? De nuevo, estaríamos locos si lo hiciéramos.

Las mismas consideraciones son relevantes para la TA y hemos desarrollado un enfoque decididamente cuerdo para este desafío: aplicamos una serie de criterios en lo que respecta a la selección del motor de TA y no todos los criterios están estrictamente relacionados con la calidad de la producción lingüística, aunque es una pieza fundamental del rompecabezas. Para aplicar la traducción automática de manera segura y eficiente en nuestros procesos, también tenemos en cuenta la confidencialidad, la disponibilidad de una oferta de servicios viable (incluida la API), el coste global y la solidez general del sistema.

Definimos solidez como la capacidad de producir buena calidad lingüística fuera de las condiciones del laboratorio, lo que incluye la tolerancia de erratas del texto origen, las frases incompletas, el formato creativo y las frases en otros idiomas en los archivos originales. Además, evaluamos la calidad de la integración en la herramienta de memoria de traducción correspondiente.

En definitiva, no hay una solución única para todos los casos y se requiere un contexto concreto para responder a la pregunta de qué sistema de TA es «mejor». La tecnología evoluciona rápidamente y nuestras tecnologías preferentes del año pasado podrían no ser las mejores opciones hoy en día. Estamos al tanto de las últimas tecnologías del sector para que tú no tengas que ser un experto en TA y observamos el mercado para que puedas seleccionar el mejor motor posible para tu situación.

Conclusión

Según parece, los llamados indicadores de calidad de la TA, como el BLEU, la LEPOR, la TER o la PED, en realidad no miden la calidad como tal. Pero hay buenas noticias: sí nos ofrecen los KPI que necesitamos para tomar decisiones de calidad.

En términos prácticos, medir la calidad lingüística real de la traducción, tanto si está hecha por humanos como si es automática, sigue siendo un ejercicio manual. Actualmente no existe una puntuación de calidad automatizada, por lo que tener a mano a los expertos adecuados para todas las lenguas de destino relevantes es una gran ventaja a la hora de elegir el sistema adecuado y evaluar las nuevas tecnologías.

Teniendo en cuenta el ritmo de la evolución tecnológica, es posible que veamos en el horizonte más soluciones automatizadas para evaluar la calidad de la traducción. Hasta entonces, Amplexor lo tiene todo bajo control.

Si quieres saber más sobre los indicadores de calidad de la TA y comprobar nuestro enfoque «TA a medida»,