哪个网站可以做免费宣传,简单的网页设计网站,wordpress修改上传,手机端网站加盟摘要
当代的关于抽象文本摘要的研究主要集中在高资源语言#xff0c;比如英语#xff0c;这主要是因为低/中资源语言的数据集有限。在这项工作中#xff0c;我们提出了XL-Sum#xff0c;这是一个包含100万篇专业注释的文章摘要对的综合多样数据集#xff0c;从BBC中提取比如英语这主要是因为低/中资源语言的数据集有限。在这项工作中我们提出了XL-Sum这是一个包含100万篇专业注释的文章摘要对的综合多样数据集从BBC中提取采用一组精心设计的启发式方法。该数据集涵盖了从低资源到高资源的44种语言其中许多语言目前没有公开数据集。XL-Sum具有高度抽象、简洁和高质量的特点这一点得到了人类和内部评估的证实。我们使用XL-Sum对mT5进行微调mT5是一种最先进的预训练多语言模型并在多语言和低资源摘要任务上进行实验。与使用类似的单语数据集获得的结果相比XL-Sum获得了竞争性的结果在我们进行基准测试的10种语言中我们的ROUGE-2分数高于11其中一些超过15这是通过多语言训练获得的。此外对低资源语言进行单独训练也提供了竞争性的性能。据我们所知XL-Sum是根据来自单一来源的样本数量和涵盖的语言数量来看是最大的抽象摘要数据集。我们发布了我们的数据集和模型以鼓励未来的多语言抽象摘要研究。资源可以在 https://github.com/csebuetnlp/xl-sum 找到。
1 Introduction
自动文本摘要Nenkova和McKeown2011是自然语言处理中的一个基本问题。给定输入文本通常是一篇长文档或文章目标是生成一个更小、更简洁的文本片段传达输入文本的关键信息。自动文本摘要有两种主要方法抽取式和生成式。抽取式方法从输入文本中截取一个或多个片段然后连接它们以生成摘要。这些方法在摘要的早期时期占主导地位但它们存在一些限制包括句子之间的连贯性较差无法简化复杂和长句子以及意外的重复See等2017Widyassari等2020。 另一方面抽象性摘要生成摘要可能包含输入文本中不存在的词语和短语例如通过改写并且可能与人工生成的摘要更相关Hsu等2018。尽管抽象性摘要可以比抽取性摘要更具连贯性和简洁性Cohn和Lapata2008但由于任务的性质生成它们更具挑战性。有利于抽象性方法的好数据集的有限供应使其变得更加困难。出于这些原因历史上抽取模型一直表现优于抽象模型。然而在过去的十年中序列到序列seq2seq模型Cho等2014Sutskever等2014的成功以及基于Transformer的模型的最新进展Vaswani等2017Devlin等2019使抽象性文本摘要Rush等2015See等2017Zhang等2020重新焕发了生机以前与抽取方法相比抽象方法受到了更少的关注Nenkova和McKeown2012。然而好的数据集的稀缺特别是对于低资源语言仍然是一个障碍。 典型的seq2seq模型是高度依赖数据的也就是说需要大量的文章-摘要对来有效训练它们。因此抽象性摘要主要集中在英语语言上因为大多数大规模的抽象性摘要数据集Hermann等2015Grusky等2018Narayan等2018仅提供英语版本。尽管最近有一些努力来整理多语言抽象性摘要数据集Giannakopoulos等2015Cao等2020Scialom等2020但它们在涵盖的语言数量、训练样本数量或两者方面都存在限制。 在这项工作中我们介绍了XL-Sum这是一个大规模的抽象性摘要数据集其中包含从英国广播公司BBC1网站抓取的新闻文章。借助自定义爬虫我们收集了1百万篇专业注释的文章摘要对涵盖了44种语言。这些样本来自单一来源它们在所有语言中都展现出类似的摘要策略使它们成为多语言摘要任务的理想选择。XL-Sum引入了首个公开可用的摘要数据集和许多语言的基准测试例如孟加拉语、斯瓦希里语。因此这个数据集有望促进对低资源语言的研究将技术进步带给那些传统上受到较少服务的语言社区。 在我们的多语言摘要基准测试中我们在10种语言中实现了高于11的ROUGE-2分数甚至在其中许多语言中超过15的ROUGE-2分数例如张等人2020在XSumNarayan等人2018上获得的英语的最新成果为16.58这是类似数据集。此外我们还进行了低资源摘要任务的实验并展示了竞争性的结果表明即使针对低资源语言也可以单独使用该数据集。 总之在本文中我们做出了以下主要贡献
我们发布了XL-Sum数据集其中包含44种语言的100万篇文章-摘要对是许多语言中首个公开可用的抽象性摘要数据集。我们创建了一个数据整理工具可以自动从BBC中抓取和提取文章-摘要对借助这个工具数据集可以随着时间的推移变得更大。我们是第一个在多种语言上执行多语言摘要的研究实现了所有测试语言的强基准结果。 我们将发布数据集、整理工具和摘要模型检查点。我们相信我们在这项工作中的努力将鼓励社区在抽象性文本摘要领域推动边界尤其是对于低资源和中等资源语言。
2 XL-Sum数据集
在本节中我们将提供XL-Sum数据集以及整理过程的详细信息。表2显示了XL-Sum数据集中所有语言的文章-摘要统计数据。
2.1 内容来源
BBC发布新闻的语言涵盖了从低资源语言如孟加拉语和斯瓦希里语到高资源语言如英语和俄语的43种语言。在这43种语言中塞尔维亚语是一个特殊情况它以西里尔字母官方文字和拉丁字母口头文字两种形式发布。在这项工作中我们将它们视为不同的语言总共涵盖了44种语言。
2.2 内容搜索
由于BBC官方网站没有提供任何存档或RSS源我们设计了一个爬虫通过访问每个已访问页面中的不同文章链接从主页开始递归地爬取页面。我们能够利用BBC各个站点具有相似结构的事实成功地从所有站点抓取文章。在进一步处理之前我们丢弃了没有文本内容的页面主要是包含多媒体内容的页面。
2.3 文章-摘要提取
自动收集文章摘要的过程在不同的数据集中有所不同。例如CNN/DM数据集Hermann等2015将提供的文章摘要作为参考摘要与文章的要点合并而XSum数据集Narayan等2018将文章的第一行作为摘要其余部分作为输入。
我们的摘要收集方法因BBC文章具有一致的编辑风格而变得更容易。BBC通常在每篇文章的开头以粗体段落的形式提供全文摘要其中包含一两句话由文章的作者专业编写以便在一个小段落中传达主要内容。这与标题不同标题的作用是吸引读者阅读文章。我们在表1中展示了来自BBC英语的文章-摘要对的示例。我们设计了一些启发式方法通过仔细检查抓取页面的HTML结构使摘要提取变得更加有效
所需摘要必须出现在文章的前两个段落内。摘要段落必须包含一些文本以粗体格式显示。摘要段落可能包含一些非粗体的超链接文本。考虑到段落的总长度粗体文本和超链接文本占总长度的比例必须至少达到95%。除了摘要和标题之外的所有文本必须包括在输入文本中包括图像说明。输入文本的长度必须至少是摘要长度的两倍。 不符合这些启发式方法的任何样本都被丢弃。我们的自动摘要注释策略在某种程度上类似于XSum但我们发现许多文章的第一行包含了许多元信息例如作者信息、最后修改日期。因此我们选择使用粗体段落作为摘要。
3 XL-Sum的人工评估
尽管XL-Sum的摘要由专业人员编写但评估数据集的质量对于确保它对抽象性摘要的更广泛社区有价值并可以使用是至关重要的。为此我们对数据集的一个子集进行了彻底的人工评估。
我们雇佣了专业的注释员来评估全球使用人数最多的前10种语言的质量。值得注意的是并非所有这10种语言都是高资源语言例如尽管孟加拉语是其中使用最广泛的之一但它仍然是一种低资源语言。
每位评估员被要求通过“是”/“否”来回答以下问题评估随机子集的数据集大约250篇文章-摘要对 属性A摘要是否传达了文章的内容 属性B如果属性A的答案是“是”摘要是否包含与文章不一致的信息 属性C如果属性A的答案是“是”摘要是否包含无法从文章中推断出的信息
设计这些属性的动机源自最近关于神经语言生成NLG模型质量估计的进展。Belinkov和Bisk2018表明NLG模型容易受到嘈杂和低质量的训练样本的影响因此通过属性A验证摘要的质量至关重要。确保生成摘要的事实一致性和忠实度Wang等2020Maynez等2020对于神经抽象性摘要至关重要因为已经证明神经模型会生成虚构的文本See等2017。属性B检查文章和摘要之间的一致性而属性C通过将知识领域限制在输入文章中并识别摘要中存在的额外信息来隐式评估虚构信息。 表3由人工评估员评估的XL-Sum以及CNN/DM和XSum的质量。在大多数情况下评估员一致认为摘要传达了主要思想属性A并且不与输入文本冲突属性B。然而摘要可能包含一些额外信息属性C因为编写摘要的编辑可能会使用他们的常识和不在文章中出现的领域知识。 属性A的高比例是可取的而属性B和C的比例应该较低。然而第三个属性可能有些模糊因为一些信息可能不直接出现在输入文章中但具有背景知识和对文章主题的理解的专业人员可能会隐含地推断出它们。由于文本摘要被视为封闭领域任务我们要求注释员进行相应的标注即不使用文章之外的任何额外信息。我们为他们提供了一些英文示例注释以帮助他们进行注释。属性A的“是”比例、属性B和C的“是”比例在表3中显示。 我们还展示了CNN/DM和XSum的人工评估以进行对比。每个文章-摘要对由两名不同的评估员标记并且我们认为只有在两名评估员都同意的情况下才具有属性A并且如果其中至少有一名评估员同意则具有属性B和C。 从表3属性A可以看出大多数语言显示出高比例的好摘要高达九十几个百分点而某些语言的比例稍低一些例如西班牙语和葡萄牙语。我们从注释员那里得知负面摘要大多来自观点文章和博客文章其中的粗体段落未传达文章的主要内容。 几乎没有摘要包含冲突信息属性B而平均约有三分之一的摘要包含不能直接推断的信息属性C。有趣的是超过75%的后者包含遗漏的信息如名字、职务或首字母缩写的解释。例如一份摘要中出现了“当选总统乔·拜登”而相应的文章中没有出现“乔”的名字。另一篇文章中摘要中有关于NHS的解释而在文章中没有提到。总的来说摘要中包含的额外信息类型在所有语言中基本相同。CNN/DM和XSum的摘要中也包含额外信息这意味着这种现象在抽象性文本摘要数据集中是常见的。 摘要中包含额外信息是可以理解的因为编写这些摘要的专业专家不仅使用文章文本中的信息还融入了他们对外部世界的知识和理解。但对于封闭领域的摘要模型或对该主题不熟悉的人来说推断这些信息并不那么直截了当这使得自动的抽象性摘要任务变得更具挑战性。这一现象可能解释了为什么在经过预训练检查点微调的语言模型Raffel等2020Qi等2020Zhang等2020在抽象性摘要方面取得了最先进的结果因为它们能够利用来自预训练文本的大量外部信息。此外研究最近将现实世界知识和常识推理Tandon等2018Deng等2020纳入语言模型是否能提高文本摘要性能将是有趣的。
4. XL-Sum的内在评估
尽管人工评估提供了对摘要质量的有益见解但摘要的许多其他方面往往不容易或不切实际由人工评估员来判断。在上述背景下一些研究Narayan等2018Grusky等2018Bommasani和Cardie2020提出了许多自动度量标准用于量化抽象性摘要的重要特征例如新颖词汇、抽象性、压缩和冗余。 新颖n-gram比例Narayan等人2018提出了摘要中不在输入文章中出现的n-gram的百分比作为衡量抽象性的手段。 抽象性Grusky等人2018引入了片段它们贪婪地匹配文章和摘要之间的文本段而Bommasani和Cardie2020将其概括为引入抽象性以衡量抽象性。 压缩Bommasani和Cardie2020提出了压缩作为衡量简洁性的度量标准。压缩度量是通过比较摘要和输入文章中的标记数来实现的。 其中|A|和|S|分别表示文章和摘要的长度。我们以标记数来衡量长度。 冗余性尽管Bommasani和Cardie2020提出了一个度量冗余性的指标但它仅适用于多句子摘要而XL-Sum中的大多数示例并非如此。因此我们通过计算摘要文本中重复n-gram的数量提出了一种新的冗余性度量。 设 g 1 , g 2 , ⋅ ⋅ ⋅ , g m {g_1, g_2, · · · , g_m} g1,g2,⋅⋅⋅,gm为摘要S中出现的唯一n-gram f 1 , f 2 , ⋅ ⋅ ⋅ , f m {f_1, f_2, · · · , f_m} f1,f2,⋅⋅⋅,fm为它们的频率。然后重复的n-gram总数为 ∑ i 1 m ( f i − 1 ) \sum^m_ {i1}(f_i − 1) ∑i1m(fi−1)。 我们将冗余性定义为冗余n-gram与S中总n-gram数量的比率 一个好的摘要最好具有较高的新颖n-gram比率、抽象性和压缩性同时具有较低的冗余得分。我们在表4中展示了这些指标对于冗余我们报告了n 1、2的值。我们还为CNN/DM和XSum数据集展示了这些指标。
结果表明XL-Sum数据集具有很高的抽象性 - 大约三分之一的标记和超过75%的bigram在摘要中都是新颖的抽象性分数也很高大多数语言都超过65%。此外XL-Sum非常简洁对于大多数语言摘要不到输入文章的十分之一并且包含极少的冗余大多数情况下少于10%。XSum的质量也可以媲美但它只适用于一种语言即英语。另一方面CNN/Daily Mail数据集在上述大多数指标中明显落后于XL-Sum和XSum。
5. 实验和基准测试
在前几节中我们已经讨论了XL-Sum的质量。此外看到最先进的模型在训练时如何表现是至关重要的。此外就我们所知对于许多语言例如孟加拉语、斯瓦希里语目前还没有公开可用的抽象性文本摘要数据集和基准测试。在本节中我们使用XL-Sum数据集训练摘要模型并提供了几个基线和基准测试结果。已经证明对具有自监督训练的预训练权重初始化的Transformer-basedVaswani等2017seq2seq模型进行微调Raffel等2020Liu和Lapata2019Rothe等2020Qi等2020Zhang等2020在许多抽象性文本摘要数据集上可以实现最先进的性能。在Hugging Face Transformers LibraryWolf等2020中提供了许多多语言预训练检查点。在其中我们选择使用mT5模型Xue等2021这是一个在大型101种语言数据集上预训练的多语言语言模型。 我们在两种设置下进行了摘要实验i多语言和ii低资源。对于性能报告对于每种语言我们随机抽取了500个对用于开发集和500个对用于测试集同时使用其余对进行训练。我们使用了与mT5检查点一起提供的250k字词Wu等2016词汇对训练样本进行标记化。由于计算限制我们使用了基础模型600M参数并不得不将输入截断为512个标记和输出截断为64个标记。我们使用ROUGE-1、ROUGE-2和ROUGE-LLin2004分数进行自动评估。对于推断我们使用了beam searchbeam大小为4长度惩罚为α 0.6Wu等2016。 表4对比我们的XL-Sum数据集与CNN/Daily Mail和XSum的内在评估。所有值均以百分比报告以便更容易比较。我们使用↑表示“数值越高越好”使用↓表示相反情况。XL-Sum和XSum都具有很高的抽象性、简洁性并且显示出可比较的质量尽管XSum数据集只包含英语样本。对于XL-Sum和XSum新颖n-gramn 1, 2, 3, 4的百分比明显高于CNN/DM。XL-Sum和XSum的高抽象性ABS分数也支持了这一发现。此外低冗余RED和高压缩CMP值表明XL-Sum和XSum比CNN/DM更加简洁。
5.1 多语言摘要
多语言训练是通过对来自多种语言的训练样本进行单一模型训练来实现的。它以前在多个自然语言处理任务中使用过包括神经机器翻译Arivazhagan等2019和语言模型预训练Conneau和Lample2019。然而在抽象性摘要的背景下多语言训练并不是社区的主要关注点。因此这个实验的目的是要证明单一模型可以很好地对不同语言的文本进行摘要并且形态相似的姊妹语言可以相互受益从而在单语言环境中是不可能的。 在这个实验中我们采用了与Conneau和Lample2019类似的训练策略我们从一个单一语言中抽样每批每批包含256个样本并使用了平滑因子α为0.5以便对低资源语言的批次进行更高的采样率从而在训练期间提高它们的频率。 我们在8个Nvidia Tesla P100 GPU组成的分布式集群上对mT5模型进行了35k步的微调持续了4天。我们使用了Adafactor优化器Shazeer和Stern2018线性预热5000步和“反平方根”学习率调度。我们在表5中展示了该模型在前10种语言上实现的ROUGE分数。从表中可以看出多语言模型在所有语言上都取得了高于11的ROUGE-2分数。其中一些语言例如孟加拉语资源有限但模型仍然获得了与高资源和中资源语言可比较的竞争力结果。此外我们是首个报告包括孟加拉语在内的多种语言的抽象性摘要基准的团队。 表5mT5模型在XL-Sum训练集上进行微调后实现的多语言摘要的ROUGE分数。
mT5-base模型在英语上实现了15.18的R2分数。相比之下最先进的PEGASUSBASE模型Zhang等2020在XSum英语数据集上训练获得了16.58的R-2分数与XL-Sum在性质上相似。这一结果表明性能与英语摘要的最先进技术相媲美。其他语言的R-2分数也与英语相似表明我们的数据集可以帮助有效生成所有受测语言的自动生成摘要包括低资源语言。
5.2 低资源摘要
我们已经展示了多语言训练策略在使用单一模型为多种语言摘要文章方面的有效性。然而训练该模型需要大量计算资源这在许多情况下可能并不现实。为了确认这一点我们在计算效率高的环境中对来自表2的五种低资源语言阿姆哈拉语、阿塞拜疆语、孟加拉语、日本语、斯瓦希里语进行了培训。我们在每种语言上单独对mT5进行了6-10轮的微调由于总训练样本有限我们必须小心防止过度拟合在单个GPUNvidia RTX 2080Ti机器上进行了训练。对于这些实验我们使用了32个批次大小并使用了倾斜的学习率计划Howard和Ruder2018。我们在表6中展示了每个模型的ROUGE分数。我们使用多语言模型的结果作为基准。 表6在低资源培训设置和前一部分提到的多语言设置下对mT5模型进行微调的性能。
正如表6中的结果所表明的多语言模型优于所有单语言训练的模型。这是可以预期的因为在一起训练时类似的语言可以在它们之间实现正向传递Conneau等人2020。然而低资源模型的差距并不大在所有情况下R-2分数的差异都不超过2。这是一个很好的迹象表明在如此少量的样本上微调的模型仍然可以推广以产生与多语言模型竞争的结果。 关于阿姆哈拉语、阿塞拜疆语和日语的表现需要讨论。前两者的分数相对较低而最后一个日语与其他语言相比得分要高得多。阿姆哈拉语和阿塞拜疆语分别有大约4,000和6,000个训练样本我们猜测这是它们表现不佳的主要原因。此外在计算ROUGE之前我们没有找到可靠的词干处理程序来预处理生成的摘要这可能也会损害分数。 另一方面日语文本没有分词需要在计算ROUGE之前将单词分开。我们使用了FugashiMcCann2020可能由于其激进的分词分数比其他语言高。类似的高结果也在测量日语机器翻译评估的BLEUPapineni等人2002分数时报告过Kudo2018。 表6中的结果显示尽管这些语言属于低资源语言但两种设置的分数相近表明我们的数据集在计算能力受限的情况下仍然可以派上用场。这有助于促进低资源文本摘要的进展实现对未被服务的社区的公平和访问。
6 相关工作
Rush等人2015Nallapati等人2016首创了神经生成式摘要使用递归注意力seq2seq模型Bahdanau等人2015。See等人2017引入了用于生成式摘要的指针生成器网络该网络可以学习从输入文本中复制单词同时使用解码器生成新的文本。Gehring等人2017提出了卷积seq2seq模型并将其应用于生成式摘要。Narayan等人2018通过将主题嵌入集成到模型中扩展了该工作。 最近预训练语言模型已成功应用于生成式摘要。Liu和Lapata2019初始化了seq2seq模型的编码器Rothe等人2020则初始化了编码器和解码器使用预训练的BERTDevlin等人2019权重并对生成式摘要进行微调。Raffel等人2020Qi等人2020使用了完全预训练的seq2seq模型而Zhang等人2020引入了一个专门用于生成摘要的预训练目标以在多个数据集上获得最新技术成果。
迄今为止大多数关于生成式摘要的研究主要集中在英语上主要是因为其他语言缺乏基准数据集。Giannakopoulos等人2015引入了MultiLing 2015这是一个跨足40种语言的摘要数据集。然而MultiLing 2015在规模上受到限制总共只有10,000个训练样本。Cao等人2020Scialom等人2020引入了两个新的多语言摘要数据集但都仅限于不到10种语言。此外不同语言的样本是从不同来源收集的这使它们暴露于不同类型的摘要策略这引发了有关摘要一致性的问题。
结论和未来工作
在本文中我们介绍了XL-Sum一个大规模、高质量的多语言文本摘要数据集包含来自BBC的440万个样本涵盖44种语言。对于许多语言XL-Sum提供了首个公开可用的生成式摘要数据集和基准。我们还为研究人员提供了数据集策划工具这将有助于随着时间的推移扩大数据集。彻底的人工和内在评估表明我们数据集中的摘要高度抽象且简明几乎不与输入文章发生冲突同时传达主要思想。此外我们证明了多语言训练可以有助于更好的摘要这很可能是由于形态相似的姐妹语言之间的积极传递。此外XL-Sum在低资源和计算高效的环境中也很有用。
在未来我们将调查如何将我们的数据集用于其他摘要任务例如跨语言摘要Zhu等人2019。我们希望XL-Sum数据集对研究社区有所帮助特别是对于致力于确保向资源有限的语言社区提供公平访问的研究人员。