Whitepaper

Qualitätsmaßstäbe in der maschinellen Übersetzung − das steckt dahinter

Gewinnen Sie Einblicke in die unterschiedlichen Methoden zur Qualitätsprüfung maschineller Übersetzungen – und was sie für Ihre Übersetzungs- und Lokalisierungsprojekte bedeuten.

Die maschinelle Übersetzung (MÜ) entwickelt sich ständig weiter – und die Ansprüche an deren Qualität ebenso, je beliebter und ausgeklügelter die Technologie wird. Wer eine professionelle Übersetzung braucht, fragt sich oft: Reicht eine maschinelle Übersetzung (MÜ) für meine Zwecke aus? Oder sollte ich sie mit einem Post-Editing, also mit Nachbearbeitung durch einen versierten Übersetzer, kombinieren?

Jeder Post-Editor und Sprachdienstleister muss für sich die Frage beantworten, ob er eine maschinelle Rohübersetzung so bearbeiten kann, dass sie die Erwartungen des Kunden erfüllt – und zu welchem Preis. Um diese durchaus kniffligen Fragen richtig zu beantworten, braucht es neben dem erforderliche Know-how die richtige Methodik. 

Schließlich können wir uns nicht blind auf die Ergebnisse der MÜ verlassen und müssen sie Korrektur lesen. Aber wie können wir erkennen, ob uns die MÜ wirklich Arbeit spart, wenn am Ende die Qualität die einer menschlichen Übersetzung sein soll? Wie finden wir heraus, wie viel Mühe und Zeit uns die MÜ im Vergleich zum traditionellen Übersetzungsprozess spart, bei dem ein Experte den Text von Grund auf übersetzt? Schließlich soll uns die MÜ helfen – und keinen zusätzlichen Arbeitsaufwand verursachen.

Wir brauchen konkrete Methoden, anhand derer wir die Rohübersetzungen aus MÜ-Systemen bewerten können. Viele Leute erwarten, dass diese auch automatisch Hinweise generieren, wie verlässlich oder korrekt die maschinelle Übersetzung ist – oder dass es zumindest Tools gibt, mit deren Hilfe sich die MÜ-Qualität und der Aufwand des Post-Editing automatisch bewerten lassen. Leider gibt es da keine Patentlösung.

Wie lässt sich die Qualität einer Übersetzung überhaupt bewerten?

Um das für maschinelle Übersetzungen beantworten zu können, sollten wir uns erst einmal ansehen, wie es bei menschlichen Übersetzungen funktioniert.

Zu den Bewertungsnormen für Übersetzungen aus Menschenhand zählen unter anderem die Multidimensional Quality Metrics (MQM), das Dynamic Quality Framework (DQF) und die J2450 Translation Quality Metric. Diese Normen beschreiben bestimmte Qualitätskriterien – zum Beispiel, ob der Text linguistisch einwandfrei, gut verständlich, flüssig geschrieben und für den kulturellen Kontext geeignet ist.

Solche Methoden erleichtern eine vereinheitlichte Bewertung, die auf der Zahl und den Schweregrad der Fehler, in Relation zum Textvolumen, beruht. Es ist möglich, die Bewertungskriterien auf spezifische Einsatzgebiete abzustimmen, etwa durch Anpassung der Schwellenwerte. Am Schluss steht die Entscheidung, ob die Übersetzung gut oder schlecht ist, oder anders gesagt: ob sie sich für den betreffenden Anwendungsbereich eignet oder nicht. So weit, so gut.

Fehler so erkennen und einstufen können allerdings nach wie vor nur menschliche Korrekturleser – unabhängig davon, welche Norm wir verwenden und wie wir unsere Schwellenwerte definieren.

Das hat natürlich einen entscheidenden Nachteil: Selbst bei der MÜ ist diese Qualitätsprüfung ein manueller Prozess, für den wir menschliche Profi-Übersetzer brauchen.

Warum gibt es dann überhaupt Systeme zur automatischen Bewertung der Übersetzungsqualität?

Ganz einfach: weil eine automatische Qualitätsbewertung durchaus sinnvoll sein kann – je nachdem, was Sie sich davon erwarten.

Ob Humanübersetzung oder MÜ – die Herausforderung, die Qualität einer fertigen Übersetzung zu bewerten. bleibt die gleiche. Und die Kennzahlen zur Beurteilung der MÜ-Qualität sind vielfältig. Welche wirklich zählen, hängt davon ab, was man herausfinden will.

Wenn Sie zum Beispiel wissen wollen, ob sich eine MÜ ohne Post-Editing für einen bestimmten Anwendungsbereich eignet, gelten dieselben Qualitätskriterien wie bei einer von Menschen erstellten Übersetzung. Eine qualifizierte Linguistin oder ein entsprechender Linguist gleichen also die Übersetzung mit dem Ausgangstext ab, stufen die Fehler in Kategorien ein und vergeben Wertungen für die Übersetzung – und der Gesamtpunktstand zeigt, ob die maschinelle Rohübersetzung im konkreten Anwendungsszenario den Test besteht oder nicht. Es führt kein Weg daran vorbei: Wer sichergehen will, dass ein maschinell übersetzter Text den Qualitätsansprüchen genügt, muss ihn von einem Menschen begutachten lassen.

Aber wie steht es um andere Aspekte? Etwa, wenn Sie zwei MÜ-Systeme miteinander vergleichen möchten – um eine allgemeine Vorstellung davon zu bekommen, ob sich ein bestimmtes MÜ-System für ausgewählte Textproben besser eignet als andere? Bei einer vergleichenden Bewertung ist die sogenannte Bilingual Evaluation Understudy, kurz BLEU, oft die beste Methode.

Und was ist mit der Frage aller Fragen, wenn es um das Post-Editing geht: Sparen wir uns mit der Kombination von MÜ und Nachbearbeitung Arbeitsaufwand, im Vergleich zur komplett menschlich erstellten Übersetzung? Und wenn ja, in welchem Rahmen? Die sogenannte Post-Edit Distance (PED) beschreibt den Nachbearbeitungsaufwand und kann in diesem Fall eine wichtige Orientierungshilfe sein.

BLEU und verwandte Methoden auf der einen, PED auf der anderen Seite: Was genau messen diese Methoden eigentlich?

BLEU und verwandte Methoden – hier gibt es nur richtig oder falsch

Neben der Bilingual Evaluation Understudy (BLEU) gibt es auch noch andere ähnliche Bewertungsmethoden. Dazu gehören die HTER (Human-Targeted Translation Error Rate) oder das LEPOR-Verfahren (kurz für: Length Penalty, Precision, n-gram Position difference Penalty and Recall). All diese Methoden haben MÜ-Ingenieure entwickelt – um die Feinabstimmung ihrer Systeme schnell und günstig, ohne menschlichen Bewertungsaufwand, beurteilen zu können. Das bedeutet natürlich auch, dass diese Methoden nicht dasselbe hochwertige Feedback liefern wie ein menschlicher Experte.


So funktioniert BLEU

BLEU geht davon aus, dass es nur eine richtige Übersetzung für einen Text gibt. Wie gut das System die MÜ-Qualität bewertet, hängt davon ab, wie nahe deren Output an diese idealtypische Übersetzung herankommt. Die als „richtig“ vorgegebene Version dient als Referenz-Übersetzung. Der Text liegt sowohl in der Ausgangs- als auch in der Zielsprache vor. Das Referenzdokument ist eine hochwertige menschliche Übersetzung.

Die Beurteilung erfolgt einzig und allein auf Basis dieses Referenztextes. Nachdem eine oder mehrere MÜ-Engines den Ausgangstext übersetzt haben, berechnet ein Algorithmus den Unterschied zwischen den einzelnen MÜ-Outputs und der Referenzübersetzung. Dabei kommt der sogenannte BLEU-Score heraus. Dieser entspricht einer Zahl zwischen 0 und 1 – oder zwischen 0 und 100 Prozent. Dabei gilt: Je höher der BLEU-Score, umso mehr gleicht die maschinelle der Referenz-Übersetzung. 

Nachteile der BLEU-Methode

Die Methode berechnet die Übereinstimmungen mittels eines ausgeklügelten Verfahrens. Dies kann aber nicht über den größten Schwachpunkt von BLEU und ähnlichen Ansätzen hinwegtäuschen: der Prämisse, dass nur eine einzige Übersetzung richtig sein könne. Das widerspricht dem allgemeinen Konsens unter Sprach-Experten, dass es für jeden Ausgangstext mehrere mögliche Lösungen in der Zielsprache geben könne.

Somit misst die BLEU nicht wirklich die Qualität einer Übersetzung – sondern lediglich, wie nahe das untersuchte MÜ-System einem vorgegebenen Referenztext kommen kann.

Logischerweise weichen die BLEU-Scores für ein und dasselbe MÜ-System je nach Referenztext voneinander ab. Sollte also die Qualität des Referenztextes nicht stimmen, hätte der ermittelte BLEU-Wert keinerlei Aussagekraft. Darüber hinaus hängt das Ergebnis auch vom Umfang der getesteten Übersetzung ab, sowie vom Zeichensatz und weiteren Faktoren. Die Methode hat also ihre Tücken ...

Klar ist auch, dass BLEU bei neuen Übersetzungen nicht funktioniert, nachdem sie einen vorgegebenen Referenztext aus Menschenhand benötigt. Mit anderen Worten: BLEU ist nutzlos, wenn es darum geht, die mögliche Qualität einer bestimmten MÜ für einen Anwendungsbereich vorherzusagen, für den es noch keine von Menschen übersetzten Beispiele gibt.

BLEU ist eher sinnvoll, um den Traningseffekt bei einem MÜ-System zu messen. Zu einem gewissen Grad eignet sich die Methode auch für den Qualitätsvergleich unterschiedlicher MÜ-Anbieter. Man darf nur nie aus dem Blick verlieren, dass BLEU keine endgültige Bewertung eines MÜ-Systems liefert, sondern sich immer auf eine Testumgebung bezieht. Dasselbe System wird bei verschiedenen Referenzübersetzungen ganz unterschiedlich abschneiden.

Die BLEU-Methode: das Fazit

BLEU kommt im Allgemeinen zu ähnlichen Urteilen über die MÜ-Qualität wie Fachleute. Es beantwortet aber nicht abschließend, wie gut oder schlecht die untersuchte Übersetzung ist. Stattdessen bekommt man eine Aussage über die Wahrscheinlichkeit, mit der ein der Referenz-Übersetzung ähnlicher Text korrekt sein wird. Und es deutet immer mehr darauf hin, dass die BLEU-Methode selbst in ihrem limitierten Anwendungsspektrum bald ausgedient hat.

PED: Bewertung unter realistischen Bedingungen

So funktioniert die „Post-Edit Distance“-Methode (PED)

PED gibt den Arbeitsaufwand an, um einen maschinell übersetzten Text auf das jeweils gewünschte Niveau zu heben. Der wichtigste Unterschied zu BLEU: Die Referenz-Übersetzung basiert auf der MÜ. So wird es wahrscheinlicher, dass sich die maschinelle Übersetzung und die vom Menschen korrigierte Version ähneln oder identisch sind. Der Grund: Übersetzer, die in Nachbearbeitungen erfahren sind, werden keine unnötigen Korrekturen an der MÜ vornehmen. PED beantwortet daher klarer als BLEU, ob sich die MÜ fürs Post-Editing eignet – vorausgesetzt, die Korrektoren haben gute Arbeit geleistet.

Können also alle Übersetzer mit Post-Editing-Erfahrung eine PED-Analyse durchführen? Nicht ganz. Wichtig ist, dass sie die Anforderungen des Kunden an den Zieltext dabei immer im Blick haben. Eine maschinelle Übersetzung kann sich flüssig lesen und keinerlei offensichtliche Sinnfehler beinhalten – und doch den Ansprüchen nicht gerecht werden. Etwa, wenn sie die kundenspezifische Terminologie oder die Stilvorgaben nicht berücksichtigt, der Text Längenbeschränkungen überschreitet oder Formatierungen verloren gegangen sind. Kurzum: Der Korrektor muss nicht nur ein erfahrener Post-Editor, sondern auch mit den Vorgaben des Kunden vertraut sein.

PED liefert nur in einem realistischen Kontext verlässliche Resultate. Den Nachbearbeitungsaufwand kann man damit nur für Post-Editing kalkulieren, das die konkreten Qualitätsforderungen der Kunden erfüllt. Ein Algorithmus berechnet den Unterschied zwischen der MÜ-Rohübersetzung und der korrigierten Version, mit Werten für einzelne Textsegmente und ganze Textproben. Das Ergebnis beschreibt, zu welchem Prozentsatz der Übersetzer die maschinelle Rohübersetzung genutzt hat: Bei einem Wert von 100 Prozent gab es keine Änderungen am Segment oder Text, bei 0 Prozent hat er oder sie alles komplett umgeschrieben. Hohe PED-Scores entsprechen einem echten Effizienzgewinn bei der Übersetzung.

Wie gut gibt PED den Arbeitsaufwand beim Post-Editing wieder?

Die Faustregel lautet: Je höher der PED-Score, umso geringer der Arbeitsaufwand. Wie bei den Translation-Memory-Matches, lohnt sich auch der MÜ-Einsatz erst ab einem bestimmten Prozentsatz. Liegt der PED-Score eines Textes durchweg unter diesem Schwellenwert, spart der Übersetzer mit MÜ keine Zeit.

Bedeuten hohe PED-Werte also, dass der Übersetzer keine Arbeit mit dem Text hatte? Ist das Post-Editing vielleicht sogar gratis, wenn die PED bei fast 100 Prozent liegt? Eines ist sicher: Eine Nachbearbeitung zum Nulltarif gibt es nicht. Der Grund: Selbst bei sehr hohen PED-Werten müssen Übersetzer den kompletten Zieltext Korrektur lesen und mit dem Ausgangstext abgleichen, prüfen, ob die MÜ die richtige Terminologie gewählt hat, falls nötig weitere Recherchen anstellen, Fragen klären usw. Das Nachbearbeiten verursacht also immer einen gewissen Aufwand – auch wenn fast keine Korrekturen nötig sind. Das ist vergleichbar mit der zweiten Meinung beim Arzt: Selbst, wenn am Ende beide zum selben Schluss kommen, muss auch der zweite Arzt erstmal gründlich untersuchen. 

Verlässliche Vorhersagen zum Arbeitsaufwand

Wenn man genügend ähnliche Texte bewertet, ermöglichen die PED-Scores verlässliche Aussagen zum Arbeitsaufwand und zum Effizienzgewinn. Kleine Textauszüge hingegen sind keine geeignete Basis für eine solche Analyse. Sie können die PED-Scores verzerren, sodass ein zu positives oder negatives Bild entsteht, das die durchschnittliche Leistungsfähigkeit dieses MÜ-Systems in der Praxis nicht korrekt wiedergibt. Glücklicherweise ist es möglich, ausreichend große Textmengen zu testen, ohne das allgemeine Übersetzungsbudget zu belasten. Wir haben Erfahrung mit solchen MÜ-Pilotprojekten. Wenden Sie sich dafür einfach an Ihre Ansprechpartner bei Amplexor. Wir erklären Ihnen gerne, wie Sie Ihr Potenzial zum Einsparen von Übersetzungskosten berechnen. 

MÜ-Qualität: Welches System ist das beste?

Wir bei Amplexor wissen, wie viel Arbeit in einer hochwertigen Übersetzung steckt. Deswegen wählen wir unsere Übersetzer und MÜ-Systeme sorgfältig aus.

Würden wir mit Übersetzern arbeiten, die beste Qualität liefern, aber Kunden-Content in sozialen Netzwerken weitergeben oder Geschäftsgeheimnisse offenlegen? Oder technischen Anforderungen nicht gerecht werden und regelmäßig XML-Strukturen und -Formate beschädigen? Das wäre verrückt. Sicher würden Sie auch nicht lange mit einem Sprachdienstleister zusammenarbeiten, der so etwas zuließe ... das wäre ein Schuss ins eigene Bein.

Genauso fatal wäre es, wenn ein Übersetzer für alle Zielsprachen und Fachgebiete zuständig wäre. So etwas kann nicht funktionieren.

An die MÜ gehen wir mit derselben Sorgfalt! Auch dabei geht es nicht nur um die rein sprachliche Qualität der Übersetzung – wenn sie auch einen der wichtigsten Eckpfeiler darstellt. Wenn wir die maschinelle Übersetzung in unsere Prozesse einbinden, dann sicher und effizient. Also zählen auch Vertraulichkeit, Verfügbarkeit und nachhaltiger Service – auch bei den Programmierschnittstellen (APIs) – sowie die Gesamtkosten und die allgemeine Stabilität des Systems.

Ein solider, robuster Service besteht für uns darin, nicht nur unter Laborbedingungen eine gute sprachliche Qualität zu liefern – sondern auch, wenn die Ausgangsdateien Tippfehler, unvollständige Sätze und Passagen in anderen Sprachen enthalten oder ungewöhnlich formatiert sind. Daneben spielt für uns auch eine Rolle, wie gut die Integration ins betreffende Translation-Memory-System funktioniert.

Eine Einheitslösung gibt es nicht. Welches MÜ-System am besten geeignet ist, ergibt sich immer aus dem konkreten Anwendungsszenario. Technologien entwickeln sich rapide weiter, und was im vergangenen Jahr top war, kann heute schon wieder veraltet sein. Wir behalten die neuesten Entwicklungen in der Branche und auf dem Markt der MÜ-Systeme auf dem Schirm. Sie müssen also kein MÜ-Experte sein, um mit uns die beste Lösung für Ihr Einsatzgebiet zu finden.

Fazit

Verfahren wie die BLEU-, LEPOR-, TER- oder PED-Methode messen also nicht die Übersetzungsqualität an sich. Sie haben trotzdem ihr Gutes: Sie stellen uns KPIs bereit. Und diese Leistungskennzahlen helfen uns, die richtigen Entscheidungen zu treffen.

Ob es sich nun um eine menschliche oder eine maschinelle Übersetzung handelt – die Bewertung der sprachlichen Qualität ist und bleibt ein manueller Prozess. Aktuell gibt es kein System, das automatisch eine Qualitätsbewertung ermitteln könnte. Umso wichtiger ist es, dass wir für alle relevanten Zielsprachen die passenden Experten bei der Hand haben, um die richtigen Systeme zu finden und neue Technologien einzuschätzen.

So rasant, wie die Technik sich weiterentwickelt, ist es aber nicht ausgeschlossen, dass bald weitergehende automatische Systeme auf den Markt kommen, um die Übersetzungsqualität einzuordnen. Bis es soweit ist, nimmt Ihnen Amplexor die Arbeit gerne weiterhin ab.

Möchten Sie mehr über Qualitätsmerkmale maschineller Übersetzungssysteme erfahren und unseren Ansatz für maßgeschneiderte MÜ-Lösungen für Ihre Bedürfnisse testen?