白皮书

揭示机器翻译质量衡量措施的意义

了解评判机器翻译质量的不同途径,以及它们对您的翻译和本地化需求有何意义。

随着技术的成熟,机器翻译 (MT) 已愈加流行和完善,客户对质量的期望也随之水涨船高。翻译客户面临的问题在于,机翻质量是否足以满足用途目的,或是否需要由语言专家进行额外的译后编辑和审校流程。

每个译后编辑商和语言服务供应商必须确定自己能否改善原始机器翻译结果以满足客户期望,以及做到这一点需付出什么成本。这或许是一个棘手的问题,但借助正确的方法和专门知识,它也定能得到解决。

众所周知,机器翻译并非始终可靠,而且原始的机翻译文也需要校订。但我们如何才能知晓,当要求我们保持如人类译员一样的质量标准时,机翻是否真正节省了我们的工作?与由译员从头开始进行人工翻译相比,我们该如何确定机翻所节省的工作量?毕竟,我们都不希望浪费时间和精力。

有鉴于此,我们需要能够评判原始机器翻译质量的方法。人们通常期望能自动输出译文的机器翻译也能自动输出机翻译文的准确性或可靠性指标,或至少有工具能自动评价机器翻译的质量并说明译后编辑中还需要投入多少工作。然而,这并非易事。

那么,我们到底如何评判翻译质量?

为求更好地理解我们如何评判机器翻译质量,了解我们目前如何评判人工翻译的质量就很有参考意义。

人工翻译的评分标准包括(但不限于)多维质量指标 (MQM)、动态质量框架 (DQF) 和 J2450 翻译质量指标。这些标准用于评判诸如语言上的准确性、可理解性、流畅度、文化适用性等质量标准。

这些评判方法通常会给出一个统一的分数,该分数反映了错误的数量及其就给定文本的字数而言的严重性。这种分数可视相关的具体用例进行调整(例如,使用调整过的阈值),使您得以判断一篇译文的好坏,继而判断该译文是否适合您的用途目的。到这个层面为止,一切都好。

然而,无论您选择哪个标准,不管您如何定义阈值,根据这些指标对错误进行检测和分类却仍需完全依靠审校人员。

坏消息就在这里:即便您评估的是机器翻译质量,这仍是一个必须有人亲力亲为的人工任务。

那么,对机器翻译质量进行自动评分的意义何在?

答案很简单:自动评分很有用 — 只不过它们的用处取决于您期望得到什么样的答案。

在从人工翻译向机器翻译的转变中,评判实际翻译质量时所面临的挑战并不会神奇地消失。此外,用于衡量机器翻译质量的指标繁多,具体使用哪一种取决于您想了解什么。

例如,如果您想评估机器翻译的内容能否不经过译后编辑就用于指定用例,那么从本质上而言,您将使用您用来评判人工翻译的相同质量评估手段:由有资质的译员审校译文和原文,对错误分类,然后得出一个分数,表明在相关情境中原始机翻译文是否合格。这没有神奇的捷径可言:如果您想确定给定的机翻译文是否满足您的质量期望,那就必须使用人工审校。

但如果您想知道的是其他问题,又该如何?如果您想在机器翻译之间作比较,即大概了解一个特定机翻引擎与其他引擎相比,在给定测试材料上有何表现,又会是怎样一种结果?若用于对比性的评判,双语替换评测 (BLEU) 方法可能最适合您的需求。

最后,我们来看看在译后编辑情境中最关紧要的问题:与完全从头翻译相比,对机器翻译的译后编辑是否节省了我们的工作?若的确如此,到底又节省了多少?在这种情况下,如果您不想劳神费力,译后编辑距离 (PED) 可能是您一直寻求的衡量方法。

让我们仔细了解 BLEU 及类似的方法与 PED,以更好地理解它们到底在衡量什么。

BLEU 及类似方法 – 正确答案只有一个

机翻工程师开发出双语替换评测 (BLEU) 评分方法和诸如 HTER(Human-targeted Translation Error Rate,以人为目标的翻译错误率)或 LEPOR(Length Penalty, Precision, n-gram Position difference Penalty and Recall,长度罚分、精确率、n-gram 位置差异罚分和召回率)等类似方法,以评判其机翻引擎的调优效果是否成功。这些方法提供了一种快捷且经济的途径,因为它们无需评判人员介入其中。但这也意味着这些方法也无法提供评判人员提供的那种答案。


BLEU 工作原理

BLEU 以“一则原文只有一种优质译文”的设想为基础,机器翻译的质量取决于机翻译文与该“优质译文”的相似程度。该“优质译文”被称为参考译文,它是源语和目标语中的文本样本。更具体地说,它是以前由人工翻译的一个样本,并被认为是优质译文。

借此就能够以机翻译文与参考译文的接近程度为基础展开衡量:原文由一个或多个机翻引擎翻译,使用一种算法来计算每个机翻结果与参考译文之间的差异。计算结果就是所谓的 BLEU 分数,它由 0 和 1 或 0% 和 100% 之间的一个数字表示:BLEU 分数越高,两种译文就越相似。 

BLEU 的短处

虽然这种方法计算相似度的方式已非常成熟,但 BLEU 和类似指标的主要问题在于,它们假定每则文本只有一种优质译文。然而,专业译员通常都清楚,任何给定的原文可能会有多种合适的译文。

因此,BLEU 并非真正衡量译文质量,而是在衡量给定的机翻引擎对某些参考文本的模仿程度。

不难理解,参考文本不同,相同机翻引擎的 BLEU 分数也会不同。同样显而易见的是,通过劣质参考文本得出的 BLEU 分数完全反映不了机翻质量。此外,该分数还取决于您所使用的样本的大小、所衡量语言的字符集和其他因素。现在看来,并不那么简单,对吧?

还有一点也很清楚,即 BLEU 无法提供关于文本的质量结论,因为它需在测试时先已备妥(人工翻译的)参考文本。您无法使用 BLEU 衡量此前未被人工翻译的机翻译文的质量,因此,它并不适合预测性的应用。

但是,BLEU 仍不失为一个衡量机翻引擎训练效果的有效工具,从某种程度上而言,它也是衡量不同机翻供应商的机翻引擎优劣的好工具。不过,BLEU 分数并不代表某机翻引擎的固定特征,而是一种测试场景的固定特征,了解这一点非常重要。参考译文不同,同一机翻引擎得出的分数也有差异。

BLEU 结论

虽然 BLEU 通常的确与人工对机翻质量的评判相关,但它实际上并没有回答给定文本的质量问题。它仅表明与参考译文相似的某机翻译文正确的可能性有多大。此外,越来越多的证据表明,即便在如此有限的应用范围内,BLEU 的应用也可能已快寿终正寝

译后编辑距离 – 真实情形下的测量

PED 工作原理

译后编辑距离 (PED) 测量的是为达到质量期望而需对机翻译文所做的编辑量。与 BLEU 相比,其主要区别在于用作参考的人工翻译实际上是以机翻译文为基础,这增加了机器翻译和人工翻译相似或相同的可能性。其原因在于,有扎实译后编辑背景的译员不会对机翻译文做不必要的修改。因此,假设译员正确完成工作,PED 比 BLEU 更能反映机翻译文的译后编辑适用性。

那么,是不是任何有译后编辑经验的译员都可以就 PED 分析进行译后编辑呢?并不尽然。其中关键在于,译员实际上能否理解客户对相关译文的质量期望。机翻译文可能行文流畅,意思上没有任何明显错误,但仍可能达不到质量要求。例如,机翻可能没遵守客户特定的术语或风格,译文可能超出长度限制,或者可能丢失了格式信息。简而言之,您需要的是既拥有译后编辑经验,又深谙客户需求的译员。

在 PED 中,必须依靠真实条件来获得可靠的数据,并且只能基于满足质量期望的译后编辑来计算译后编辑距离。它使用一种算法来计算原始机器翻译和译后编辑译文之间的差别,并按照每个句段和每个文本样本来给出对应的分值。该分值表明了原始机翻译文被译员重复使用的百分比,它从 100%(译员没对句段或文本做任何修改)开始递减。PED 分数高说明译员确实节省了工作,提高了效率。

PED 分数与译后编辑工作有何关系?

经验法则告诉我们,PED 分数越高,所需的译后编辑工作越少。然而,由于存在翻译记忆库匹配,必须达到一定的百分比阈值才能表示效率得到真正的提升。如果某给定文本类型的整体 PED 分值始终低于该阈值,则表明机器翻译并没节省时间。

那么,PED 高分是否意味着译员完全没产生工作量?如果 PED 接近 100%,您是否还需为译后编辑买单?只要您想进行译后编辑,那就会产生成本 — 这就是答案。即便有一个很高的译后编辑距离分值,但并不意味着译员没产生工作量,认识这一点很重要。因为译员已经对目标译文进行了全面审校,并将其与原文进行对比,验证了机翻系统是否正确应用了术语,可能还进行过额外的研究或查证等等。因此,译后编辑工作从来都不是零工作量,哪怕几乎没有编辑也不例外。译后编辑就好比第二位医生提出的意见 — 即两位医生都给出同样的结论,但这并不意味着第二位医生未对患者做彻底的检查。 

可靠的译后编辑工作预测

通过评估数量足够多的类似译文的 PED 分值,您就能获得关于所需工作量和量化效率增益的可靠指标。小的轶事性样本不属于这种分析的合适基础,因为它们可能导致过于积极或消极的 PED 分数,而这样的分数最终不能代表平均的真实结果。值得庆幸的是,使用合适的字数进行测试并不意味着增加您正常翻译流程的成本。Amplexor 对这方面的内容非常了解,因此,敬请放心联系我们进行机翻试译,并了解如何计算可能节省的成本。 

机器翻译质量 – 哪个系统才是上佳之选?

Amplexor 深谙产出优质译文之道,因此我们量体裁衣,针对具体情况选择合适的资深译员与机翻引擎。

我们会和能提供上佳译文,但却因在社交平台分享其客户的内容并泄漏商业秘密而声名狼藉的译员合作吗?或者会和无法遵守技术要求,并经常造成 XML 结构和格式错误的译员合作吗?若真如此,我们肯定是疯了!如果您与这般行事的任何语言服务供应商共事,您也会发疯的。

此外,我们会让一名译员去把原文翻译成所有目标语言,或让一名译员执行所有主题领域的翻译吗?若真如此,我们肯定还是疯了。

同样的考量与机器翻译也息息相关,我们已制定一个绝对不疯狂的有效方案,以从容应对挑战:在选用机器翻译引擎时,我们采用了一系列周全的标准。虽然译文质量是工作中至关重要的一环,但这些标准并非全都只注重译文质量这一个方面。为在我们的流程中安全有效地应用机器翻译,我们同样审慎考量保密性、可持续服务产品的可用性(包括 API)、整体成本和系统的一般鲁棒性等方方面面。

我们将鲁棒性定义为在实验室条件之外产出优质译文的能力,它包括对源文件中原文错别字、不完整句子、创造性格式以及外语短语的容忍度。此外,我们还会评估相关翻译记忆库工具中的译文收录质量。

无论如何,没有万全的解决方案,要回答哪个机翻系统才是“上佳之选”必须立足于具体场景。技术日新月异地演变,去年我们首选的技术今天可能已非上佳之选。我们与时俱进,紧贴行业技术动向,使您不必成为凡事亲力亲为的机翻专家,我们更密切关注市场,悉心甄选您的应用场景所需的理想机翻引擎。

结论

综上可知,诸如 BLEU、LEPOR、TER 或 PED 之类所谓的机器翻译质量指标实际上难以从真正意义上衡量质量。但好的一方面在于,它们的确为我们提供了做质量决策所需的关键绩效指标。

在实践中,不管是衡量人工翻译还是机器翻译的实际语言质量,仍需由人工进行。目前尚不存在自动质量评分,对于选用正确的系统和评估新技术而言,这正是拥有全部相关目标语言的合适专家是一个巨大优势的原因所在。

鉴于技术发展势头迅猛,我们相信,出现更多评估翻译质量的自动化解决方案指日可待。到那时,Amplexor 定能成竹在胸,满怀信心地竞逐新潮头。

如果您想了解关于机器翻译质量指标的更多详情,并测试我们的“贴切机翻”方案,