网站开发 百度网盘,.net做网站c#,李氏牛仔网站建设风格,王也头像图片全称#xff1a; Bilingual Evaluation Understudy (双语评估替补)
目的#xff1a; 自动评估机器翻译结果的质量#xff0c;通过将机器生成的译文#xff08;Candidate Translation#xff09;与一个或多个高质量的人工参考译文#xff08;Reference Translation#…全称 Bilingual Evaluation Understudy (双语评估替补)
目的 自动评估机器翻译结果的质量通过将机器生成的译文Candidate Translation与一个或多个高质量的人工参考译文Reference Translation进行比较。
核心思想 BLEU 主要基于一个简单的直觉机器翻译的输出与专业人工翻译的参考译文在 n 元词组n-gram上重合度越高其质量就越好。
特点 它是自动化、快速、低成本且与人工评价有较高相关性的指标。自2002年提出以来已成为机器翻译领域研究和产业应用中最广泛使用的自动评估指标之一。
计算方法
BLEU 的计算主要包含以下几个关键步骤和概念
1.n-gram 精确度 (Modified n-gram Precision):
详细介绍请跳转
BLEU 中的修正 n-gram 精确度 (Modified n-gram Precision)-CSDN博客https://blog.csdn.net/qq_54708219/article/details/148634207?spm1001.2014.3001.5502
2.简洁惩罚 (Brevity Penalty, BP):
问题 如果机器译文非常短比如只输出一个高频词它可能在某些 n-gram 精确度上得分很高但这显然不是好的翻译。
解决 BLEU 引入了简洁惩罚因子 (BP) 来惩罚过短的译文。
计算令 c 机器译文的长度 r 与机器译文长度最接近的参考译文的长度称为“最佳匹配长度”。则BP的计算公式是 解释
if c r: BP 1 (译文够长不惩罚)if c r: BP e^(1 - r/c) (译文短于参考译文进行惩罚)当 c 远小于 r 时BP 会显著小于 1从而降低最终得分。e^(1 - r/c) 确保了惩罚的平滑性。
3.几何平均 (Geometric Mean):
为了综合考虑不同长度的 n-gram从单个词到词组的匹配情况BLEU 将计算出的 P₁, P₂, P₃, P₄ 【即(1-gram) (2-gram) (3-gram) 和(4-gram) 的修正精确度】取几何平均数。
公式 其中exp(...) 表示自然指数ln(...) 表示自然对数。
表示 P₁, P₂, P₃, P₄ 的权重分布满足。如果不指定默认即(ln(P₁) ln(P₂) ln(P₃) ln(P₄)) / 4 相当于计算 ln(P₁), ln(P₂), ln(P₃), ln(P₄) 的算术平均数。exp() 把这个算术平均数转换回几何平均数。
范围 BLEU 分数是一个介于 0 到 1 之间的值有时表示为 0 到 100 的百分比。分数越高表示机器译文与参考译文越相似通常认为质量越好。1.0 或 100 分表示机器译文与某个参考译文完全一致。
举例
设参考译文 (reference)
[[the, cat, is, on, the, mat], # 参考1 (6个词)[there, is, a, cat, on, the, mat]] # 参考2 (7个词)
和候选译文 (candidate):
[the, the, the, cat, on, the, mat] # 7个词
1n-gram 精确度 (Modified n-gram Precision)
具体跳转
BLEU 中的修正 n-gram 精确度 (Modified n-gram Precision)-CSDN博客https://blog.csdn.net/qq_54708219/article/details/148634207?spm1001.2014.3001.55022简洁惩罚 (Brevity Penalty, BP)
候选长度 (c): 7 个词
参考长度 (r): 参考1: 6 词参考2: 7 词 → 选择最接近候选长度的参考2 (|7-7|0)
则
3计算最终BLEU分数
计算过程:
1.取各 n-gram 精确度的自然对数:
ln(p₁) ln(0.7143) ≈ -0.3365ln(p₂) ln(0.6667) ≈ -0.4055
ln(p₃) ln(0.4) ≈ -0.9163ln(p₄) ln(0.25) -1.3863
2.计算加权和:
sum 0.25 × (-0.3365 -0.4055 -0.9163 -1.3863) 0.25 × (-3.0446) -0.76115
3.指数运算: exp(-0.76115) ≈ 0.4671
4.应用简洁惩罚: BLEU 1 × 0.4671 0.4671
代码实现
from nltk.translate.bleu_score import sentence_bleureference [[the, cat, is, on, the, mat], [there, is, a, cat, on, the, mat]]
candidate [the, the, the, cat, on, the, mat]
score sentence_bleu(reference, candidate)
print(score) # 0.4671379777282001BLEU 的优点 自动化与高效 计算速度快成本极低可以方便地对大量翻译结果进行批量评估。 客观性 避免了人工评估的主观性和不一致性。 相关性 在语料库文档集合级别上BLEU 分数与人类对翻译流畅性和充分性的整体评判通常有较好的统计相关性尤其是在评估不同系统或同一系统的不同版本时。 关注局部匹配 对词汇和短语级别的匹配敏感。 标准化 作为事实上的标准方便不同研究或系统之间的比较。
BLEU 的缺点和批评 不考虑语义 BLEU 只计算表面词串的匹配不涉及语法正确性、语义忠实度、语篇连贯性或文化适应性等更深层次的质量。一个 BLEU 分数高的译文可能在意思上完全错误。 不考虑语序 n-gram 匹配主要捕获局部词序对长距离的语序错误如从句结构混乱不够敏感。 同义词和多样性惩罚 如果机器译文使用了与参考译文不同的、但同样正确甚至更好的同义词或表达方式BLEU 会扣分因为它没匹配上参考译文的 n-gram。这抑制了翻译的多样性。 对参考译文的依赖 BLEU 分数高度依赖于所使用的参考译文的质量和数量。一个单一的参考译文可能无法覆盖所有正确的表达方式。增加参考译文数量通常能提高 BLEU 的可靠性。 句子级别不可靠 BLEU 设计初衷是在语料库文档级别上评估整体性能。在单个句子级别BLEU 分数往往与人工判断的相关性较差波动很大。 偏向于字面翻译 由于强调 n-gram 匹配BLEU 可能更青睐比较保守、字面的翻译而对需要更大灵活性和意译的翻译不利。 忽略功能词 1-gram 精确度对功能词the, a, of, on 等的匹配很敏感而这些词的选择有时并不影响核心意思。
总结
BLEU 是一个在机器翻译领域极其重要的自动化评估指标。它通过计算机器译文与参考译文在 n-gram 上的修正精确度并结合简洁惩罚提供了一个快速、客观、低成本的质量评估手段特别适用于系统级语料库级别的比较和迭代开发。
然而必须清醒认识到 BLEU 的局限性它只是一个表面匹配的指标不能代表翻译的全部质量尤其是语义、语法和语用层面。它不能完全替代人工评估。 在解读 BLEU 分数时应结合其他评估方法如人工评价、其他自动指标如 TER, METEOR, BERTScore 等进行综合判断。
尽管存在诸多批评和替代方案的出现BLEU 因其简单、高效和在历史上的重要作用至今仍然是机器翻译研究和应用中最常被报告和比较的基线指标之一。