当前位置：首页 > news >正文

网站建设流程机构注册公司费用有哪些

news 2025/12/17 4:59:54

网站建设流程机构,注册公司费用有哪些,php网站开发实战教程,专业苏州网站建设全文摘要#xff1a;受益于预训练语言模型的发展#xff0c;应用神经网络模型提取内容摘要的技术也获得了长足进步。但目前还存在一个未被很好解决的问题#xff1a;神经网络模型提取的摘要不能如实反映原文档的中心思想#xff0c;没有做到忠实#xff08;not faithful受益于预训练语言模型的发展应用神经网络模型提取内容摘要的技术也获得了长足进步。但目前还存在一个未被很好解决的问题神经网络模型提取的摘要不能如实反映原文档的中心思想没有做到忠实not faithful。可能的原因有两个1摘要模型未能理解或者抓取输入文档内容的要点2摘要模型过度依赖语言模型产生了流畅但不达意的词语。本文提出了一个忠实度增强摘要模型克服上述两个问题并尽可能贴切地表达出原文的中心思想。针对存在的第一个问题采用QA(question-answering)来评估编码器是否完全掌握了输入文档内容并能够回答有关输入内容中关键信息的问题。这个对正确的输入词语保持注意力的QA系统也用于规定解码器应该怎么反映输入内容源。对于第二个问题本文引入了语言模型和摘要模型之间差异的最大边际损失函数以防语言模型的过度拟合。在CNN/DM和XSum这两个基准数据集上的实验表明本文提出的模型效果显著优于比较的基准模型。一致性的评估也表明本文提出的模型能得到更加贴切的内容摘要。背景概述研究【12】指出很多内容摘要模型有不能如实反映原文思想的问题。Durmus等人【3】强调了摘要不能忠于原文的两种表现形式1内在因素即篡改输入文档的信息2外在因素即包含原文没有阐述的信息。篡改原文常常是由于摘要模型理解错了原文档既有可能是Encoder部分没有理解到原文的语义信息也有可能是Decoder部分无法从Encode部分获取相关和一致性的信息。增加多余信息是由于预训练语言模型的过度注意机制导致了生成的摘要虽然流畅却不遵从原文。例如预训练语言模型倾向于生成常见的的短语“score the winner记录胜利者”而原文中正确的短语是使用较少的“score the second highest记录次高分者”。这种类型的错误在当前的摘要提取任务中还没有考虑到但在神经网络机器翻译NMT任务【4】中已经进行了研究。基于以上观察和原因分析本文提出了一个忠实度增强摘要模型Faithfulness Enhanced Summarization modelFES。为了防止篡改原文问题忠实度增强摘要模型FES中设计了多任务学习模式一个完成摘要提取的编解码器任务和一个基于QA系统的忠实度评估任务。QA系统增加了编码器的额外推理要求需要对输入文档的关键语义有更全面的理解并且能学习到比单纯的概述更好的表示。同时QA对原文中关键实体的注意力使解码器和编码器的输出一致从而让生成的摘要保持忠实度。第二为了处理针对原文的无中生有问题本文提出了一个最大边际损失函数来防止预训练语言模型过度拟合。详细来说本文定义了一个判定预训练语言模型过度程度的指标。通过最小化这个程度指标缓解了‘摘要提取无中生有’产生内容的风险。通过在公共数据集CNN/DM【5】和XSum【6】上的大量实验证明了本文提出的忠实度增强摘要模型FES的有效性。实验结果也表明本文模型FES在ROUGE评分上有更好的效果而且对比几个新闻摘要生成基线模型也提高了忠实度。研究方法 1、问题描述设一系列输入文档对应的真实摘要为。令个问答对和。在训练阶段模型的输入为问答对、和文档-摘要对、。模型最优化提取问题的答案和生成摘要。在测试阶段给定文档和问题推理摘要和答案。最终生成一个总结原文并与原文信息一致的摘要。接下来详细拆解本文提出的模型FES。该模型基于Transformer【7】分成3个子构件。1多任务编码multi-task Encoder通过添加的QA系统来检测文档编码表示的质量提高了对输入文档的语义理解。因此编码器能捕捉到关键输入信息从而做出忠实行的内容摘要。2QA注意力增强解码器来自多任务编码器的注意力能使解码器与编码器对齐以便解码器能够获取更加准确的输入信息来生成摘要。3最大边际损失函数这个损失函数跟模型的最后输出损失函数是正交的只反映预训练语言模型的准确性用于克服摘要生成过程中的预训练语言模型的过度拟合。 2、多任务编码器在摘要提取和QA联合训练阶段多任务编码器对输入文档进行编码图1(b)。不同于此前研究【23】将QA系统用于后处理来评估生成摘要的忠实度图1(a)。本文让QA系统更接近编码器并让编码器同时完成QA和内容摘要任务的训练。这种多任务编码器的联合训练除了考虑摘要生成的质量也将忠实度作为训练优化目标。QA系统中的答案来自输入文档中的关键实体因此QA问答对能注意到输入文档中的关键信息。图1 如下图2所示本文采用经典的Transformer体系结构获取文档和问题的token级别表示记为和其中表示文档中的token数目表示问题数目表示一个问题中的token数目表示特征维度数。最终的编码器能从实体级、句子级、问题级理解问题和输入文档。图2 本文通过不同的粒度表示学习来构建编码器。实体包含紧密和显著的文档信息也是阅读理解问答的主要关注点所以本文采用实体作为基本语义单元。由于每个问题一般很短所以每个问题都会创建一个节点。从问题到句子和从句子到实体也都构建了双向边。这些节点作为句子与句子间的中介丰富了跨句子间的关系。初始的有向边不足以学习到反向信息本文添加了反向边和自环边。采用标记token级和词跨度级的均值池化处理来初始化节点表示【8】。给定构建好包含节点特征的图本文用图注意力网络Graph Attention NetworksGAT【9】更新图中的语义节点表示。令为输入节点的隐状态其中、和分别表示实体节点、句子节点、问题节点的数目。GAT层设计如下其中表示节点的邻居节点集分别表示训练参数表示和间的注意力权重。迭代几轮后再增加一个残差连接避免梯度迷失。通过迭代这个GAT层和位置感知前馈层position-wise feed-forward layer【7】来更新各个节点的表示。输出实体特征矩阵、句子特征矩阵、问题矩阵分别表示为、、。在融合问题和文档信息之后就可以从文档中选择实体作为问题的答案。具体来说在问题和图中的实体间应用多头交叉注意力机制Multi-head Cross AttentionMHAtt其中表示问题索引来获得问题感知的实体表示。在此基础上本文应用前馈网络Feed-Forward NetworkFFN来产生实体的抽取概率其中。那么QA的目标就是最大化所有实体的真值概率 . 3、QA注意力强化的解码器做到忠实性的解码器需要关注并抓住编码器中的重要信息。从上节可以看到关键实体上的QA注意力表明了哪些实体需要在最终的摘要中包含。也就是说本文的摘要生成通过QA注意力进行了增强。解码器的状态通过实体这个中介关联到编码器的状态其中实体级别的注意力由QA注意力引导。具体来说对于每一层在第步解码上于掩码摘要嵌入上利用自注意力机制获取。掩码机制确保了位置上的预测仅取决于之前的输出。基于计算实体交叉注意力得分实际上第一注意力层捕获解码序列的上下文特征而第二注意力层将实体信息进行了并入。这里定义最小化第步的QA注意力和实体上的摘要注意力间的双向Kullback-LeiblerKL散度为来让摘要模型学习到哪些实体是重要的。其中表示真实摘要中的token数目。这个目标引导交叉注意力捕捉正确的上下文信息而不是只学习QA注意力分布。为了避免产生对QA任务的“overfitting”本文只在注意力头部部分使用该目标。然后使用实体级注意力来引导选择与关键实体相关的源token在源词语序列和上利用如下的层该上下文向量是各种源的显著内容摘要体现被发送到以产生目标词汇表上的分布通过优化预测目标词的负对数似然目标函数来更新所有的在学习参数 4、最大边际损失函数先前的工作【1011】表明信息不足的解码器会忽略一些源片段定义成一个开放式的预训练语言模型容易出现外部错误即添加多余额外信息。受到忠实度增强机器翻译工作的启发本文在摘要生产中引入了最大边际损失函数用于最大化摘要每个标记token的预测概率与预训练语言模型LM的差异如图3所示。这个损失函数能抑制摘要生成通用到不忠实的内容。具体来说本文首先定义摘要和预训练语言模型LM的边际损失作为预测概率的差上式中为输入的文档为第个标记token的预测概率。这里要注意的是语言模型并不直接使用输入文档使用的是解码的摘要前缀。如果的值较大时摘要模型的效果就会优于预训练语言模型。而较小时会出现两种情况一是摘要模型和预训练语言模型的效果都较好所以两者的预测概率相近另一种情况是预训练语言模型出现了过拟合导致摘要的效果较差。图3 因此本文在最大边际损失函数里加入一个系数上式中是的缩写。是关于的非线性单调递减函数用来保证最大化能取得最优值。这里用了五次方函数采用了其中的稳定性【12】。第一项是用来平衡前一个公式中的两个概率。当更大时摘要模型能很好的学习到此时不需要太关注。这也反应在了此时的系数就较小。当较小时意味着摘要需要继续迭代优化此时较大的系数保证了模型能够从边际信息中学习优化。上述4个损失函数和相互间是正交的所以可以进行组合来优化摘要忠实性。实验验证 1、实验设置本文为了证明所提方法的有效性选取了两个在摘要生产领域广泛使用的公开数据集CNN/DM和XSum。这两个数据集都是新闻类内容包含了大量事件、实体及关系能够测试摘要模型的事实阐述一致性。从上文研究方法这节可以看到摘要模型中还加入了一个问答QA任务。所需要的问答对是通过QuestEval【2】这个工具预先生成的。最终本文为CNN/DM选取了38个QA对为XSum选取了27个QA对。在训练数据集中选取了具有最高ROUGE分的QA对作为输入。本文选取如下模型作为比较基线1FASum【13】是一个通过图注意提取和集成文章描述到摘要生成过程中的模型2CLIFF【14】利用参考摘要作为正样本错误摘要作为负样本训练摘要模型3BART【15】是最近的一个以去噪自动编码为目标的摘要生成预训练模型4PEGASUS【16】是一个基于Transformer的大型预训练编码器-解码器摘要生成模型5GSum【17】是一个能利用外部句子作为引导的摘要生成框架6SimCLS【18】利用无引用评估reference-free来弥合学习目标与评估指标之间的差距。实现过程整个实验在Huggingface【19】上进行采用了4块NVIDIA A100 GPUs。超参数是参考BART(Facebook/bart-large)和PEGASUS(Google/pegasus-xsum)。QA设置了8对。为了避免模型学到实体或者问题的位置信息将实体和问题按字母序排列。优化器是用的Adam。学习率设置为。冷启动阶段CNN/DM为500步XSum为125步。Batch-size设置为8梯度累计步长为4。CNN/DM的beam size为6XSum的beam size为8。同时在CNN/DM和XSum上分别训练了基于BART和PEGASUS的预训练语言模型。 2、主要结果本文采用标准全长ROUGE F1【20】评估模型。ROUGE1RG-1、ROUGE-2RG-2和ROUGE-LRG-L分别指一元unigram、二元bigrams以及最长的公共子序列。使用BERTScore【21】计算基于BERT嵌入的摘要之间的相似度。用FactCC和QuestEval评估模型的事实描述一致性。FactCC是一个弱监督、基于模型的事实一致性验证方法。QuestEval在生成摘要中不仅考虑事实信息也考虑了源文中最重要的信息最终给出了加权F1分数QE。表1CNN/DM和XSum数据集上的评估结果如表1所示在含义一致性上FASum是效果最差的可能的原因是这个模型不是基于预训练模型的。CLIFF的BERTScore分和忠实性分都比BART好。本文的模型在CNN/DM数据集上比GSum模型好0.97分ROUGE-1、0.90分BERTScore在XSum数据集上比GSum模型好3.35分QE。这表明多任务中的问题能比重要的句子提供更好的信息。在绝大多数的指标上本文的模型效果都是比有最好基准的SimCLS模型好特别是忠实性指标FactCC和QE上。同时从上表也可以看到oracles能进一步改进效果在CNN/DM数据集上的ROUGE-1达到50.50分。这个测试也表明1通过QA问答对能改进模型效果2通过QA问答任务辅助也能改进模型效果。因为自动评测可能会有偏差本文进一步进行了人工评测。在CNN/DM和XSum数据集上随机选取了100个样本然后雇佣了两名流利使用英语的人来评估生成摘要的信息性和事实描写一致性。选取了具有最好自动评测结果的模型并且隐藏模型的名称。对于每一篇文章由基准BART、PEGASUS和其他两个系统生成的摘要会给到评估者。评估者对摘要给出评分并且标出内部和外部的错误。表2CNN/DM数据集上的人工评测结果表3XSum数据集上的人工评测结果从人工评测结果表2和表3中可以看到CNN/DM数据集上表现出更高的信息性XSum数据集上表现出更高的事实一致性。这是因为CNN/DM数据集更长从而具有更多信息XSum数据集比较短需要摘要模型具有更好的效果。在两个数据集上的人工评测也表明了本文的模型对比SimCLS模型具有更好的效果生成的摘要具有更多的信息、与文档的事实描述更加一致。 3、评估讨论消融研究在CNN/DM数据集上进行本文FES模型的各模块消融研究。第一个先移除多任务框架来验证摘要的联合学习也即移除了解码器的QA注意力加强机制。这样等价于有实体输入和最大化边际损失的BART摘要生成模型。第二个保留QA任务但用Vanilla Transformer解码器替代QA注意力加强解码器。第三个移除最大边际损失来验证预训练语言模型的过拟合。此外通过随机选择QA对来查看模型对文档的理解是否跟关键信息相关。从表1可以看出FES去掉多任务框架后在CNN/DM数据集上的效果RG-L得分下降1.86BERTScore得分下降0.43QE得分下降0.60。这表明QA多任务模块增强了编码器的全面表示学习。FES去掉QA注意力机制后QE得分下降0.28。这表明将QA注意力与重要实体的摘要注意力相结合能帮忙模型从输入文档中获取要点信息并将信息损失限制在部分实体上以帮助解码器从输入文档中获取有意义的内容。FES去掉最大边际损失函数后FactCC得分下降0.63。这表明防止预训练语言模型LM过拟合能提高摘要生成的忠实性。最后FES采用随机QA问答对会降低效果但比BART的效果还是提高不少。这表明即使随机的QA问答对不一定与关键信息相关但加强了文档的理解也能带来效果的提升。而关于关键实体生成的QA问答对则进一步提升了效果。 QA问答对数量研究在CNN/DM数据集上进行本文FES模型的问答对数量研究。QA问答对的调整数量为6-14对。从图4(a)可以看到ROUGE得分刚开始会随着QA问答对增加而提升。当QA问答对超过8对后提升效果会消失。从原因上分析增加的问答对不再是提取关键的信息了。QA问答对从8对调到15对FES模型都维持了一个较高的效果也证明了本文提出模型的有效性和鲁棒性。根据问答对数量研究本文默认情况下选取的QA问答是8对。图4 QA任务评估本文的框架引入了问题解答任务所以评估QA任务的效果对理解FES模型就有帮助。具体来说采用精确匹配exact matchEM和部分匹配partial matchf1来评估FES模型和其消融模型。结果如表4所示可以看到包含多任务框架明显能提升评估得分。这也证明了QA任务和摘要生成任务是相关受益的摘要生成任务也能提升QA任务的效果。表4中QA任务的EM和F1得分也比较高表明本文的FES模型也能用于文本的问题解答任务。表4 表5 FES和预训练语言模型LM的差异接下来评估FES模型和BART的差异结果如图4(b)所示。可以看到BART模型中仍有有很多值是小于0和近似等于0的。这表明对于很多token来说预训练语言模型LM是过拟合的。对比BART模型本文的FES模型中值小于0的数量降低了很多。表5中列出了两个模型中是负值的比例以及的平均值。FES模型中是负值的比例降低了2.33%平均值提升了0.11。这表明FES模型针对过拟合问题改进了很多。图4(c)画出了所有词和实体词的分布。实体词的在0值附近的比例降低非常多这也表明预训练语言模型LM在实体词上的准确性会好很多。案例研究在表6中列出了几个典型案例包括源文档中的相关QA问答对和相关上下文。在CNN/DM和XSum这两个数据集上采用BART、FEGASUS、SimCLS和本文FES模型生成了摘要。前3个案例显示了基线模型由于对源文档的理解有误产生了篡改原文的内在错误。本文FES模型在问题问答的帮助下产生了更加有忠实性的摘要。第4个案例显示了基线模型和预训练语言模型LM生成了相似的tokens包括了原文中没有的多余信息。本文FES模型没有造成有多余信息的外部错误这是因为引入了最大边际损失函数减缓了预训练语言模型LM的过拟合。值得一提的是QA问答任务和最大边际损失两则能相互补充受益。例如第3个案例中QA问答对和最大边际损失防止产生不忠实于原文的信息。在表6的最后一行进行了错误分析。两个生成的摘要中都包含一个未提及的名称在训练数据集中可以找到。这个问题可能需要后处理post-edit来解决。表6 结论本文提出了具有最大边际损失函数的多任务框架来生成具有忠实性的摘要。辅助问答任务能增强模型对源文档的理解能力最大边际损失函数可以防止预训练语言模型LM的过拟合。实验结果表明本文提出的FES模型在不同数据集上都是有效的。下一步可以嵌入后处理操作以提高模型的忠实性。而且产生具有忠实性的摘要也是迈向真正人工智能的重要一步。这项工作对构建智能和吸引人的阅读体系有潜在的积极影响。但是大家如果过于依赖摘要的这种即时阅读可能会变得不那边有能力阅读长文档了。此外预训练语言模型可能会注入恶意和低俗的信息产生有误导的摘要总结。所以也是要辩证的来看待摘要内容生成的优点和缺点。本文原文地址https://arxiv.org/pdf/2210.01877.pdf 参考文献【1】Wojciech Kryscinski, Bryan McCann, Caiming Xiong, and Richard Socher. Evaluating the factual consistency of abstractive text summarization. In Proc. of EMNLP, 2020. 【2】Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano, Alex Wang, and Patrick Gallinari. Questeval: Summarization asks for fact-based evaluation. In Proc. of EMNLP, 2021. 【3】Esin Durmus, He He, and Mona Diab. Feqa: A question answering evaluation framework for faithfulness assessment in abstractive summarization. In Proc. of ACL, 2020. 【4】Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977, 2020. 【5】Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. Teaching machines to read and comprehend. In Proc. of NeurIPS, 2015. 【6】Shashi Narayan, Shay B Cohen, and Mirella Lapata. Don’t give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization. In Proc. of EMNLP, 2018. 【7】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proc. of NIPS, 2017. 【8】Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Ziqiang Cao, Sujian Li, Hua Wu, and Haifeng Wang. Bass: Boosting abstractive summarization with unified semantic graph. In Proc. of ACL, 2021. 【9】Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. Proc. of ICLR, 2017. 【10】Bhuwan Dhingra, Manaal Faruqui, Ankur Parikh, Ming-Wei Chang, Dipanjan Das, and William Cohen. Handling divergent reference texts when evaluating table-to-text generation. In Proc. of ACL, 2019. 【11】Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. On faithfulness and factuality in abstractive summarization. In Proc. of ACL, 2020. 【12】Mengqi Miao, Fandong Meng, Yijin Liu, Xiao-Hua Zhou, and Jie Zhou. Prevent the language model from being overconfident in neural machine translation. In Proc. of ACL, 2021. 【13】Chenguang Zhu, William Hinthorn, Ruochen Xu, Qingkai Zeng, Michael Zeng, Xuedong Huang, and Meng Jiang. Enhancing factual consistency of abstractive summarization. In Proc. of AACL, 2021. 【14】Shuyang Cao and Lu Wang. Cliff: Contrastive learning for improving faithfulness and factuality in abstractive summarization. In Proc. of EMNLP, 2021. 【15】Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Bart: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. In Proc. of ACL, 2020. 【16】Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter J Liu. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization. Proc. of ICML, 2020. 【17】Zi-Yi Dou, Pengfei Liu, Hiroaki Hayashi, Zhengbao Jiang, and Graham Neubig. Gsum: A general framework for guided neural abstractive summarization. In Proc. of AACL, 2021. 【18】Yixin Liu and Pengfei Liu. Simcls: A simple framework for contrastive learning of abstractive summarization. In Proc. of ACL, 2021. 【19】Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, et al. Transformers: State-ofthe-art natural language processing. In Proc. of EMNLP, 2020. 【20】Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, 2004. 【21】Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. Bertscore: Evaluating text generation with bert. In Proc. of ICLR, 2020.

查看全文

http://www.w-s-a.com/news/879607/