当前位置：首页 > news >正文

怎样做seo网站推广儿童网页设计

news 2025/12/18 13:49:38

怎样做seo网站推广,儿童网页设计,西宁网站设计建设,专业网站定制团队本文简介 1、对最先进水平RAG进行了全面和系统的回顾#xff0c;通过包括朴素RAG、高级RAG和模块化RAG在内的范式描述了它的演变。这篇综述的背景下#xff0c;更广泛的范围内的法学硕士研究RAG的景观。 2、确定并讨论了RAG过程中不可或缺的核心技术#xff0c;特别关注“…本文简介 1、对最先进水平RAG进行了全面和系统的回顾通过包括朴素RAG、高级RAG和模块化RAG在内的范式描述了它的演变。这篇综述的背景下更广泛的范围内的法学硕士研究RAG的景观。 2、确定并讨论了RAG过程中不可或缺的核心技术特别关注“检索”、“生成”和“增强”方面并深入研究了它们的协同作用阐明了这些组件如何复杂地协作以形成一个有凝聚力和有效的RAG框架。 3、构建了一个全面的RAG评估框架概述了评估目标和指标。对比分析从不同的角度阐明了RAG与微调相比的优缺点。此外预测了RAG的未来方向强调潜在的增强以应对当前的挑战扩展到多模式设置以及其生态系统的发展。 R A G 核心组件的分类 RAG核心组件的分类 RAG核心组件的分类 1、RAG框架 1简述本文将RAG搜索范式分成了三类朴素RAG、高级RAG和模块化RAG 从模块化RAG来看朴素RAG是只有读取和检索模块高级RAG除了朴素RAG中的读取和检索模块外还具有重写和重排模块。从某种程度上来说朴素RAG是高级RAG的一个特例而高级RAG又是模块化RAG的一个特例。三种范式之间是一种继承与发展的关系。 2朴素RAG 朴素RAG是传统的RAG过程包括索引、检索和生成。索引索引过程是离线数据准备的关键涉及三个阶段。 1数据预处理数据清洗、提取、格式转换为标准纯文本、切割分块等。 2嵌入表示将分块后的数据用嵌入模型将其用向量表示。 3创建索引创建索引以键值对的形式存储这些文本块及其向量嵌入从而实现高效且可扩展的搜索功能。检索受到用户查询后将会去索引库中匹配向量。 1用户查询向量化系统使用索引阶段使用的相同编码模型将输入转码为向量表示。 2计算相似度分数计算查询向量和索引语料库中向量的相似度分数。 3优先级排序并检索系统对与查询最相关的前K个块进行优先级排序检索出来对应的文本块这些文本块将作为结果会返回给用户。生成查询与选择出的文档将会被拼接在一起作为一个连贯的prompt输入给LLM。传统RAG的缺陷低精度、检索快不对齐、幻觉、低回忆率 3高级RAG 高级RAG有针对性地解决朴素RAG的潜在问题实现了检索前策略和检索后策略。还是用了滑动窗口技术、细粒度分割和元数据等技术改进索引方法引入了各种方法来优化检索过程。检索前过程优化数据索引。优化数据索引的目标是提高被检索内容的质量。这涉及五种主要策略增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索。 1增强数据粒度旨在提高文本的标准化、一致性、事实准确性和丰富的上下文从而提高RAG系统的性能。这包括删除不相关的信息消除实体和术语中的歧义确认事实的准确性维护上下文和更新过时的文件。 2优化索引结构调整块的大小以捕获相关上下文、跨多个索引路径进行查询以及通过利用图数据索引中的节点之间的关系来合并图结构中的信息以捕获相关上下文。 3添加元数据将引用的元数据日期和用途等集成到块中进行过滤以及将引用的章节和小节等元数据集成到块中以提高检索效率。 4对齐优化通过在文档中引入“假设问题”来纠正对齐问题和差异从而解决文档之间的对齐问题和差异。检索通过计算查询和块之间的相似性识别合适的上下文Embedding模型是这个过程的核心。 1微调Embedding模型微调Embedding模型会显著影响RAG系统中检索内容的相关性。该过程包括自定义Embedding模型、增强特定领域上下文中的检索相关性。可以适应ChatGPT等语言模型来生成用于微调的预训练数据以制定基于文档块的数据。 2动态Embedding适应单词使用的上下文不像静态嵌入它为每个单词使用单个向量。例如在向BERT这样的Transformer模型中相同的单词可以根据周围的单词具有不同的嵌入。OpenAI的embeddings-ada-02模型建立在LLM的原理之上是一个复杂的动态嵌入模型可以捕获上下文理解。然而它可能不会像最新的大规模语言模型如GPT-4那样对上席文同样表现出敏感性。检索后过程在从数据库中检索有价值的上下文之后必须将其与查询合并作为llm的输入同时解决上下文窗口限制带来的挑战。简单地将所有相关文件一次性呈现给法学硕士可能会超出上下文窗口限制引入噪音并阻碍对关键信息的关注。为了解决这些问题需要对检索到的内容进行额外处理。 1重排对检索到的信息重新排序将最相关的内容重新定位到提示的边缘开头或结尾是一个关键策略。 2prompt压缩检索文档中的噪声会对RAG性能产生不利影响。在后处理中重点在于压缩不相关的上下文突出关键段落减少整体上下文长度。包括利用小语言模型来计算提示互信息或困惑估计元素的重要性在不同粒度上训练压缩器来解决这个问题计了总结技术来增强LLM的关键信息感知特别是在处理广泛的上下文时。 4模块化RAG 模块化RAG提供了一个更为灵活和通用的框架集成了多种增强功能模块的方法例如在检索器中加入相似检索的搜索模块和应用微调方法。模块化RAG允许序列化的管道和跨多个模块端到端的方法。 1模块化RAG的结构 1、搜索模块·从多源异构数据来源中获取数据。针对特定场景进行了定制并结合了对其他语料库的直接搜索。这种集成是使用LLM生成的代码、查询语言(如SQL或Cypher)以及其他自定义工具来实现的。这些搜索的数据源可以包括搜索引擎、文本数据、表格数据和知识图谱。 2、记忆模块通过利用LLM的记忆信息来指导检索。包括识别与当前输入最相似的记忆利用检索增强生成器迭代创建无界内存池将“原始问题”和“双重问题”结合起来。通过使用检索增强的生成模型使用自己的输出来改进自己文本在推理过程中与数据分布更加一致。利用模型本身的输出来代替训练数据。 3、融合模块使用LLM将查询扩展到多个不同的角度多个不同的方法来查询。这种方法不仅捕获了用户所寻求的明确信息而且还揭示了更深层次的、具有变革性的知识。融合过程包括对原始查询和扩展查询进行并行向量搜索智能重新排序以优化结果并将最佳结果与新查询配对。这种复杂的方法确保搜索结果与用户的显性和隐性意图紧密结合从而导致更有洞察力和相关的信息发现。 4、路由模块查询路由决定用户查询的后续操作。 RAG系统的检索过程利用了多种来源这些来源在领域、语言和格式上都有所不同可以根据情况进行交替或合并。查询路由决定用户查询的后续操作包括汇总、搜索特定数据库或将不同的路径合并到单个响应中。查询路由器还为查询选择适当的数据存储其中可能包括各种来源如矢量存储、图形数据库或关系数据库或者索引层次结构——例如用于多文档存储的摘要索引和文档块向量索引。查询路由器的决策是预定义的并通过llm调用执行llm调用将查询定向到所选的索引。 5、预测模块解决检索内容中冗余和噪声等常见问题该模块不是直接从数据源中检索而是利用LLM生成必要的上下文。与通过直接检索获得的内容相比LLM产生的内容更有可能包含相关信息。 6、任务适配侧重于使RAG适配各种下游任务。包括自动从预构建的数据池中检索零shot任务输入的提示从而增强了任务和模型之间的通用性利用LLM作为少量查询生成器并基于生成的数据创建特定于任务的检索器。通过利用LLM的泛化能力它可以用最少的示例开发特定于任务的端到端检索器。 2模块化RAG的模式模块化RAG的组织结构具有高度的适应性允许在RAG过程中替换或重新排列模块以适应特定的问题上下文。目前研究主要探讨两种组织范式。一种是涉及添加模块替换模块一种是侧重于调整模块之间的组织流程。这种灵活性使RAG过程能够有效地处理各种任务。 1、添加或替换模块引入或替换模块的策略包括维护检索-读取过程的核心结构同时集成其他模块以增强特定功能。 RRR模型[Ma et al. 2023a]引入了 rewrite-retrieve-read 过程利用LLM性能作为重写模块的强化学习激励。这使重写器能够微调检索查询从而提高读取器的下游任务性能。在 Generate-Read [Yu et al. 2022] 等方法中模块可以选择性地交换其中LLM的生成模块取代了检索模块。The Recite-Read方法[Sun et al. 2022]将外部检索转换为从模型权重中检索要求LLM首先记住特定于任务的信息然后产生能够处理知识密集型自然语言处理任务的输出。 2、调整模块间的流程在模块流调整领域重点是加强语言模型和检索模型之间的交互。 DSP [Khattab et al. 2022]引入了 Demonstratre-Search-Predict 框架将上下文学习系统视为一个明确的程序而不是最终的任务提示从而更有效地处理知识密集型任务。ITER-RETGEN [Shao等人2023]方法利用生成的内容来指导检索在检索-读取-检索-读取流程中迭代地实现“检索增强生成”和“生成增强检索”。这种方法展示了一种使用一个模块的输出来改进另一个模块的功能的创新方法。 3优化RAG管道优化检索过程的目的是提高检索效率和检索质量。目前的研究主要集中在整合多种搜索技术、精炼检索步骤、结合认知回溯、实现通用查询策略以及利用嵌入相似度等方面。这些努力共同努力实现检索效率和上下文信息深度在RAG系统之间的平衡。 1、混合搜索探索RAG系统通过智能集成各种技术来优化其性能。包括基于关键字的搜索、语义搜索和向量搜索。这种方法利用每种方法的独特优势来适应不同的查询类型和信息需求确保对高度相关和上下文丰富的信息进行一致的检索。使用混合搜索作为检索策略的强大补充从而提高了RAG管道的整体效率。 2、递归检索和查询引擎采用两步检索方式在效率和提供上下文丰富的响应之间取得平衡。第一步在初始检索阶段获取较小的块以捕获关键语义。第二步在流程的后期阶段将向LLM提供包含更多上下文信息的大块。 3、回退提示鼓励LLM从具体实例中转移出来围绕更广泛的概念和原则进行推理。相当于是把你的问题抽象一下再给大模型。实验结果表明当使用回退提示时在各种具有挑战性的、基于推理的任务中性能显著提高突出了它们对RAG过程的自然适应性。这些增强检索的步骤既可以应用于生成对回退提示的响应也可以应用于最终的问答过程。比如一个物体从 100 米的高处落下到地上的速度是多少SBPstep backward prompt 就是在提示词里加上这样一句话“这个问题遵循什么物理规则”。 4、子查询方法根据场景的不同可以采用各种查询策略。例如使用LlamaIndex等框架提供的查询引擎、利用树查询、利用向量查询或执行简单的块顺序查询。 5、假设的文档嵌入假设文档嵌入基于生成的答案在嵌入空间中可能比直接查询更接近这一假设通过LLM为响应查询创建一个假设文档答案将该文档嵌入化并使用生成的嵌入来检索与假设文档相似的真实文档。该方法不是基于查询寻找嵌入相似度而是关注从一个答案到另一个答案的嵌入相似度。然而它可能不会始终产生理想的结果特别是当语言模型不熟悉主题时可能会导致更多带有错误的实例。 2、检索从数据源中有效地检索相关文档是至关重要的。然而如何精确的找到我们需要的文档面临着巨大的挑战。这部分分为三个基本问题 1、我们如何实现准确的语义表示? 2、什么方法可以对齐查询和文档的语义空间? 3、如何使检索器的输出与大语言模型的偏好保持一致? 1增强语义表示在RAG中语义空间是必不可少的因为它涉及查询和文档的多维映射。语义空间的检索精度显著影响RAG结果。本节将介绍构建准确语义空间的两种方法。 1块优化在管理外部文档时最初的步骤包括将它们分解为更小的块以提取细粒度的特征然后嵌入这些特征以表示它们的语义。然而嵌入过大或过小的文本块可能会导致次优结果。因此确定语料库中文档的最佳块大小对于确保检索结果的准确性和相关性至关重要。选择适当的分块策略需要仔细考虑几个重要因素例如索引内容的性质、嵌入模型及其最佳块大小、用户查询的预期长度和复杂性以及特定应用程序对检索结果的利用。不同的嵌入模型在不同块大小下表现出不同的性能特征。例如在处理单个句子时sentence-transformer模型表现更好。而text-embedding-ada-002在处理包含256或512个token时表现更出色。用户输入问题的长度和复杂性以及应用程序的特定需求例如语义搜索或问题回答等因素也会影响分块策略的选择。这种选择可能直接受到所选LLM的令牌限制的影响需要调整块大小。在现实中获得精确的查询结果需要灵活地应用不同的分块策略。没有放之四海而皆准的“最佳”策略只有最适合特定环境的策略。目前RAG的研究探索了各种旨在提高检索效率和准确性的块优化技术。包括使用滑动窗口技术通过跨多个检索过程合并全局相关信息来实现分层检索 “small2big”方法在初始搜索阶段利用小文本块随后向语言模型提供更大的相关文本块进行处理。 2微调嵌入模型一旦确定了适当的块大小下一个关键步骤是使用嵌入模型将这些块和查询嵌入到语义空间中。嵌入的有效性至关重要因为它影响模型表示语料库的能力。当将通用嵌入模型应用于特定领域时它们准确捕获特定领域信息的能力可能会受到限制。嵌入模型在特定任务下微调对于确保模型从内容相关性方面理解用户查询至关重要。没有调优的模型可能无法充分满足特定任务的需求。因此对嵌入模型进行微调对于下游应用程序至关重要。在嵌入微调方法中有两种主要的范式。 1、领域知识微调为了确保嵌入模型准确地捕获特定于领域的信息必须利用特定于领域的数据集进行调优。这个过程与标准语言模型微调不同主要在于所涉及的数据集的性质。通常用于嵌入模型微调的数据集包含三个主要元素查询、语料库和相关文档。该模型使用这些查询来识别语料库中的相关文档。然后根据响应查询检索这些相关文档的能力来衡量模型的有效性。数据集构建、模型微调和评估阶段各有不同的挑战。 2、针对下游任务微调在利用RAG完成这些任务的领域中通过利用llm的功能来微调嵌入模型的创新方法已经出现。 PROMPTAGATOR [Dai等人2022]利用LLM作为少量查询生成器来创建特定于任务的检索器解决了监督微调中的挑战特别是在数据稀缺领域。LLM-Embedder [Zhang等2023a]利用llm为跨多个下游任务的数据生成奖励信号。检索器使用两种类型的监督信号进行微调:数据集的硬标签和来自llm的软奖励。这种双信号方法促进了更有效的微调过程使嵌入模型适应不同的下游应用。 2查询与文档对齐在RAG应用程序的上下文中检索器可以使用单个嵌入模型对查询和文档进行编码或者为每个模型使用单独的模型。此外用户的原始查询可能会受到措辞不精确和缺乏语义信息的影响。因此将用户查询的语义空间与文档的语义空间保持一致是至关重要的。本节将介绍两种旨在实现这种对齐的基本技术。 1查询重写查询重写是对齐查询和文档语义的基本方法。 Query2Doc和ITER-RETGEN等方法利用llm通过将原始查询与附加指导相结合来创建伪文档[Wang et al. 2023c, Shao et al. 2023]。HyDE使用文本线索构建查询向量生成捕获基本模式的“假设”文档[Gao等2022]。RRR引入了一个框架该框架颠倒了传统的检索和读取顺序重点是查询重写[Ma et al. 2023a]。step - backprompts使llm能够基于高级概念执行抽象推理和检索[Zheng等2023]。此外多查询检索方法利用llm同时生成和执行多个搜索查询有利于解决包含多个子问题的复杂问题。 2嵌入转换除了诸如查询重写之类的广泛策略之外还有专门为嵌入转换设计的更细粒度的技术。 LlamaIndex [Liu, 2023]通过引入一个可以集成在查询编码器之后的适配器模块来举例说明这一点。这个适配器有助于调优从而优化查询嵌入的表示将它们映射到与预期任务更紧密结合的潜在空间。将查询与结构化外部文档对齐的挑战特别是在处理结构化和非结构化数据之间的不一致性时SANTA解决了这个问题[Li等人2023]。它通过两种预训练策略来提高检索器对结构化信息的敏感性第一利用结构化和非结构化数据之间的内在一致性在结构感知预训练方案中通知对比学习第二通过实现掩码实体预测。后者利用以实体为中心的掩码策略鼓励语言模型预测和填充被掩码的实体从而促进对结构化数据的更深入理解。 3检索器和LLM对齐在RAG管道中通过各种技术提高检索命中率不一定会改善最终结果因为检索的文档可能与llm的特定需求不一致。因此本节将介绍两种方法旨在使检索器输出与llm的首选项保持一致。 1微调检索器一些研究利用llm的反馈信号来完善检索模型。 AAR [Yu等人2023b] 使用编码器-解码器架构为预训练的检索器引入了监视信号。这是通过FiD交叉注意分数来识别LM的首选文档来实现的。随后通过硬负采样和标准交叉熵损失对检索器进行微调。最终改进后的检索器可以直接用于增强未见目标LMs从而提高目标任务的性能。此外有人认为LLM可能更倾向于关注可读性而不是信息丰富的文档。REPLUG [Shi et al. 2023] 利用检索器和LLM计算检索文档的概率分布然后通过计算KL散度进行监督训练。这种简单有效的训练方法通过使用LM作为监督信号来提高检索模型的性能从而消除了对特定交叉注意机制的需要。UPRISE [Cheng et al. 2023a]也使用冻结llm对提示检索器进行微调。LLM和检索器都将提示输入对作为输入并利用LLM提供的分数来监督检索器的训练有效地将LLM视为数据集标注器。Atlas [Izacard et al. 2022]提出了四种监督微调嵌入模型的方法 1注意力蒸馏。该方法利用LLM在输出过程中生成的交叉注意分数来提取模型的知识。 2EMDR2。该方法采用期望最大化算法以检索到的文档作为潜在变量对模型进行训练。 3困惑度蒸馏。直接使用生成的token的Perplexity作为指标来训练模型。 4循环。该方法提出了一种新的基于文档删除对LLM预测影响的损失函数提供了一种有效的训练策略使模型更好地适应特定的任务。这些方法旨在提高检索器和LLM之间的协同作用从而提高检索性能并更准确地响应用户查询。 4适配器微调模型可能会带来挑战例如通过API集成功能或解决本地计算资源有限问题。因此一些方法选择合并一个外部适配器来帮助校准。 PRCA通过上下文提取阶段和奖励驱动阶段训练适配器。然后使用基于token的自回归策略**对检索器的输出进行优化[**Yang等人2023b]。token过滤方法采用交叉注意分数来有效地过滤token只选择得分最高的输入token[Berchansky等人2023]。RECOMP引入了提取压缩器和生成压缩器来生成摘要。这些压缩器要么选择相关句子要么合成文档信息创建适合多文档查询的摘要[Xu等2023a]。PKG引入了一种通过指令微调将知识集成到白盒模型中的创新方法[Luo等人2023]。在这种方法中直接替换检索模块根据查询生成相关文档。该方法有助于解决在微调过程中遇到的困难并增强模型性能。 3、生成 RAG的一个关键组件是它的生成器它负责将检索到的信息转换成连贯流畅的文本。与传统的语言模型不同RAG的生成器通过整合检索数据来提高准确性和相关性从而使自己与众不同。在RAG中生成器的输入不仅包含典型的上下文信息还包含通过检索器获得的相关文本片段。这种全面的输入使生成器能够深入了解问题的上下文从而产生更多信息和上下文相关的响应。此外检索的文本来指导生成器以确保生成的内容与获得的信息之间的一致性。不同的输入数据导致在生成阶段进行有针对性的工作所有这些工作都旨在改进大型模型对来自查询和文档的输入数据的适应。在接下来的小节中我们将通过深入研究检索后处理和微调的各个方面来探讨生成器的介绍。 1冻结LLM进行后处理在不可微调的LLM领域中许多研究依赖于GPT-4 等成熟的模型来利用其全面的内部知识系统地综合从各种文档中检索到的信息。然而这些大型模型仍然存在挑战包括上下文长度的限制和对冗余信息的敏感性。为了解决这些问题一些研究努力将重点转向检索后处理。检索后处理包括处理、过滤或优化检索器从大型文档数据库检索到的相关信息。它的主要目标是提高检索结果的质量使它们更贴近用户需求或后续任务。它可以看作是对检索阶段获得的文档的再处理。检索后处理中的常见操作通常包括信息压缩和结果重新排序。 1信息压缩检索器擅长从庞大的知识库中检索相关信息但是管理检索文档中的大量信息是一个挑战。正在进行的研究旨在扩展大型语言模型的上下文长度来解决这个问题。然而当前的大型模型仍然与上下文限制作斗争。因此在某些情况下压缩信息是必要的。信息压缩对于降低噪声、解决上下文长度限制和增强生成效果具有重要意义。 PRCA通过训练一个信息提取器来解决这个问题[Yang等2023b]。训练过程的目的是尽量减少提取和实际上下文之间的差异。RECOMP采用了一种类似的方法使用对比学习训练一个信息收集器[Xu et al. 2023a]。每个训练数据点由一个正样本和五个负样本组成编码器在整个过程中使用对比损失进行训练[Karpukhin et al. 2020]。在[Ma et al. 2023b]的研究中采取了不同的方法旨在减少文件的数量以提高模型答案的准确性。他们提出了**“Filter-Reranker”范式**该范式结合了LLM和小语言模型(Small Language Models, slm)的优势。在这个范例中SLM充当过滤器而LLM充当重新排序代理。研究表明指导LLM重新排列由SLM识别的具有挑战性的样本可以显著改善各种信息提取(IE)任务。 2重排重新排序模型是优化从检索器检索到的文档集的关键。当引入额外的上下文时语言模型经常面临性能下降的问题重新排序可以有效地解决这个问题。核心概念包括重新排列文档记录将最相关的项放在最上面从而限制文档的总数。这既解决了检索过程中上下文窗口展开的难题又提高了检索效率和响应速度。重新排序模型在整个信息检索过程中扮演双重角色既充当优化器又充当精炼器。它为后续的语言模型处理提供了更有效和准确的输入[Zhuang等2023]。上下文压缩被整合到重新排序过程中以提供更精确的检索信息。这种方法需要减少单个文档的内容并过滤整个文档其最终目标是在搜索结果中显示最相关的信息以便更集中、更准确地显示相关内容。 2微调LLM进行RAG 在RAG模型中优化生成器是其体系结构的一个关键方面。生成器的作用是获取检索到的信息并生成相关文本形成模型的最终输出。生成器的优化旨在确保生成的文本既自然又有效地利用检索到的文档来更好地满足用户的查询需求。在标准llm生成任务中输入通常由查询组成。RAG的突出之处在于它不仅将查询还将检索器检索到的各种文档结构化/非结构化合并到输入中。这些附加信息可以显著地影响模型的理解特别是对于较小的模型的影响。在这种情况下对模型进行微调以适应查询和检索文档的输入变得至关重要。在将输入呈现给微调模型之前通常会对检索器检索到的文档进行检索后处理。必须注意的是RAG中生成器的微调方法与llm的一般微调方法是一致的。下面我们将简要介绍一些涉及数据格式化/未格式化和优化函数的代表性工作。 1通用优化过程作为一般优化过程的一部分训练数据通常由输入-输出对组成目的是训练模型在给定输入x的情况下产生输出y。 Self-Mem [Cheng et al. 2023b]的工作中采用传统的训练过程其中给定输入x检索相关文献z(在文中选择Top-1)对(x, z)进行整合后模型生成输出y。本文采用了两种常用的微调范式即Joint-Encoder和two - encoder [Arora等2023,Wang等2022b, Lewis等2020,Xia等2019,Cai等2021,Cheng等2022]。在Joint-Encoder中使用了基于编码器-解码器的标准模型。在这里编码器最初对输入进行编码而解码器通过注意机制将编码结果结合起来以自回归的方式生成令牌。在DualEncoder中系统设置两个独立的编码器每个编码器分别对输入(查询、上下文)和文档进行编码。由此产生的输出由解码器按顺序进行双向交叉注意力处理。这两种架构都使用Transformer [Vaswani等人2017]作为基础块并使用负对数似然损失进行优化。 2运用对比学习在为语言模型准备训练数据的阶段通常会创建输入和输出的交互对。这种传统方法可能导致“暴露偏差”即模型只在单个正确的输出示例上进行训练从而限制了其暴露于一系列可能的输出序列。这种限制可能会导致模型过度拟合训练集中的特定示例从而降低其在各种上下文中泛化的能力从而阻碍模型的实际性能。为了减轻暴露偏差SURGE [Kang等人2023]提出使用图文对比学习。这种方法包括一个对比学习目标促使模型产生一系列合理和连贯的反应扩展到训练数据中遇到的实例之外。这种方法对于减少过拟合和增强模型的泛化能力至关重要。对于涉及结构化数据的检索任务SANTA框架[Li et al. 2023]实现了一个三方训练方案以有效地封装结构和语义的细微差别。 1初始阶段使用检索器利用对比学习来细化查询和文档嵌入。 2随后生成器的初步训练阶段采用对比学习将结构化数据与其非结构化文档描述对齐。在生成器训练的进一步阶段该模型承认实体语义在文本数据的表示学习中起着关键作用如[Sciavolino等人2021,Zhang等人2019]所强调的那样。这个过程从识别结构化数据中的实体开始然后在生成器的输入数据中对这些实体应用掩码从而为模型预测和预测这些掩码元素奠定基础。 3训练方案随着模型学习的进展利用上下文信息重构被掩盖的实体。这个过程培养了模型对文本数据的结构语义的理解并促进了结构化数据中相关实体的对齐。总体优化目标是训练语言模型准确地恢复模糊的跨度从而丰富其对实体语义的理解[Ye et al. 2020]。 4、RAG增强方法本节围绕三个关键方面展开增强阶段、增强数据的来源和增强过程。这些方面阐明了对RAG的发展至关重要的关键技术。 1增强阶段 RAG是一项知识密集型的工作在语言模型训练的预训练、微调和推理阶段整合了各种技术方法。 1预训练阶段在预训练阶段研究人员研究了通过基于检索的策略来支持开放域QA的ptm的方法。 REALM模型采用结构化、可解释的方法进行知识嵌入、框架预训练和微调作为掩模语言模型(MLM)框架内的检索-预测工作流[Arora等人2023]。RETRO [Borgeaud等人2022]利用检索增强技术从头开始进行大规模预训练实现了模型参数的减少同时在困惑度方面超过了标准的GPT模型。RETRO的独特之处在于它有一个建立在GPT模型的基础结构之上额外的编码器用于处理从外部知识库检索到的实体的特征。Atlas[Izacard等人2022]还在预训练和微调阶段将检索机制纳入T5架构[rafael等人2020]。它使用预训练的T5来初始化编码器-解码器语言模型使用预训练的Contriever来初始化密集检索器提高了复杂语言建模任务的效率。COG [Lan等人2022]引入了一种新的文本生成方法该方法模拟从预先存在的集合中复制文本片段。利用高效的向量搜索工具COG计算和索引文本片段的上下文有意义的表示与RETRO相比在问答和领域适应等领域表现出优越的性能。标度定律的出现促进了模型参数的增长推动自回归模型成为主流。研究人员正在将RAG方法扩展到预训练更大的模型RETRO通过在保持或增强性能的同时扩大模型参数来体现这一趋势[Wang等人2023b]。经验证据强调了文本生成质量、事实准确性、降低毒性和下游任务熟练程度的显著改进特别是在像开放领域QA这样的知识密集型应用中。这些结果表明将检索机制集成到自回归语言模型的预训练中是一条有前途的途径将复杂的检索技术与广泛的语言模型相结合以产生更精确和有效的语言生成。增强预训练的好处包括一个健壮的基础模型该模型在困惑度、文本生成质量和特定任务性能方面优于标准GPT模型同时使用更少的参数。这种方法特别擅长处理知识密集型任务并通过对专门语料库的训练促进特定领域模型的开发。尽管如此这种方法面临着挑战例如需要广泛的预训练数据集和资源以及随着模型大小的增加而减少的更新频率。尽管存在这些障碍但该方法在模型弹性方面提供了显著的优势。经过训练后检索增强模型可以独立于外部库进行操作从而提高生成速度和操作效率。所确定的潜在收益使该方法成为人工智能和机器学习领域正在进行的研究和创新的引人注目的主题。 2微调阶段 RAG和Fine-tuning是增强llm的强大工具将两者结合起来可以满足更具体场景的需求。一方面微调允许检索具有独特样式的文档实现更好的语义表达并调整查询和文档之间的差异。这确保了检索器的输出更适合手头的场景。另一方面微调可以满足进行风格化和针对性调整的生成需求。此外微调还可以用于对齐检索器和生成器以改进模型协同。微调检索器的主要目标是通过使用语料库直接微调嵌入模型来提高语义表示的质量[Liu, 2023]。通过反馈信号将检索器的能力与llm的偏好对齐可以更好地协调两者[Yu et al. 2023b, Izacard et al. 2022, Yang et al. 2023b, Shi et al. 2023]。为特定的下游任务微调检索器可以提高适应性。引入任务不可知微调旨在增强检索器在多任务场景中的多功能性[Cheng et al. 2023a]。微调生成器可以产生更加风格化和定制的输出。一方面它允许专门适应不同的输入数据格式。例如微调llm以适应知识图谱的结构[Kang等人2023]、文本对的结构[Kang等人2023,Cheng等人2023b]和其他特定结构[Li等人2023d]。另一方面通过构建指令数据集可以要求llm生成特定格式的内容。例如在自适应或迭代检索场景中llm被微调以生成有助于确定下一步行动时间的内容 [Jiang等人2023b, Asai等人2023]。通过协同微调检索器和生成器我们可以增强模型的泛化能力并避免单独训练它们可能产生的过拟合。然而联合微调也会导致资源消耗增加。RA-DIT [Lin等2023]提出了一种轻量级的双指令调优框架可以有效地为任何llm添加检索功能。检索增强指令微调更新LLM指导它更有效地利用检索到的信息并忽略分散注意力的内容。尽管有其优点但微调也有局限性包括需要专门的数据集进行RAG微调以及需要大量的计算资源。然而这个阶段允许根据特定的需求和数据格式定制模型与预训练阶段相比潜在地减少了资源使用同时仍然能够微调模型的输出样式。总而言之微调阶段对于使RAG模型适应特定的任务至关重要从而能够对检索器和生成器进行细化。这一阶段增强了模型的通用性和对各种任务的适应性尽管资源和数据集需求带来了挑战。因此RAG模型的战略性微调是开发高效和有效的检索增强系统的关键组成部分。 2推理阶段 RAG模型中的推理阶段是至关重要的因为它涉及到与llm的广泛集成。传统的RAG方法也称为朴素RAG涉及在此阶段合并检索内容以指导生成过程。为了克服朴素RAG的局限性先进的技术在推理过程中引入了更多上下文丰富的信息。 DSP框架[Khattab et al. 2022]利用前沿LMs和检索模型(RM)之间复杂的自然语言文本交换丰富了上下文从而提高了生成结果。PKG [Luo等人2023]方法为llm配备了一个知识引导模块该模块允许在不修改LMs参数的情况下检索相关信息从而能够执行更复杂的任务。CREAICL [Li et al. 2023b]采用跨语言知识的同步检索来增强上下文。而RECITE[Sun et al. 2022]通过直接从LLM中抽取段落来生成上下文。在推理过程中RAG过程的进一步细化可以在满足需要多步骤推理的任务的方法中看到。 ITRG [Feng等2023]迭代检索信息以识别正确的推理路径从而提高任务适应性。ITERRETGEN [Shao et al. 2023]采用迭代策略在“检索增强生成”和“生成增强检索”之间交替的循环过程中合并检索和生成。对于非知识密集型(NKI)任务PGRA [Guo等人2023]提出了一个两阶段框架首先是任务不可知的检索器然后是提示引导的重新排序器以选择和优先考虑证据。相比之下IRCOT [Trivedi等人2022]将RAG与思维链(CoT)方法结合起来交替使用CoT引导的检索与检索通知的CoT过程显著提高了GPT-3在各种问答任务中的表现。从本质上讲这些推理阶段的增强提供了轻量级的、经济有效的替代方案可以利用预训练模型的功能而不需要进一步的训练。其主要优点是在提供上下文相关信息以满足特定任务需求的同时维护静态LLM参数。然而这种方法并非没有局限性因为它需要细致的数据处理和优化并且受到基础模型固有能力的约束。为了有效地解决不同的任务需求该方法通常与过程优化技术相结合如分步推理、迭代检索和自适应检索策略。 2增强来源扩充数据源的选择严重影响RAG模型的有效性。不同的知识水平和维度需要不同的处理技术。它们分为非结构化数据、结构化数据和LLM生成的内容。具有代表性的不同增强方面的RAG研究技术树如下图所示。叶子以三种不同的深浅颜色表示使用不同类型数据的增强非结构化数据、结构化数据和llm生成的内容。该图清楚地表明最初增强主要通过非结构化数据实现例如纯文本。这种方法后来扩展到包括使用结构化数据例如知识图以进一步改进。最近在研究中有一种日益增长的趋势即利用llm本身生成的内容进行检索和增强。 1非结构化数据增强非结构化文本从语料库中收集例如用于微调大型模型的提示数据[Cheng等人2023a]和跨语言数据[Li等人2023b]。检索单元从token(例如kNN-LM [Khandelwal等人2019])到短语(例如NPM, COG [Lee等人2020,Lan等人2022])和文档段落不等更细的粒度以增加检索复杂性为代价提供精度。 FLARE [Jiang等人2023b]引入了一种主动检索方法由LM生成的低概率词触发。它为文档检索创建一个临时句子然后使用检索到的上下文重新生成该句子以预测后续的句子。RETRO使用前一个块来检索块级别上最近的邻居结合前一个块的上下文它指导下一个块的生成。为了保持因果关系下一个块Ci的生成只利用前一个块的最近邻居N(Ci−1)而不是N(Ci)。 2结构化数据增强结构化数据如知识图KGs)提供了高质量的上下文并减轻了模型幻觉。 RET-LLMs [Modarressi et al. 2023]从过去的对话中构建知识图记忆以供将来参考。SUGRE [Kang et al. 2023]使用图神经网络(Graph Neural Networks, gnn)对相关KG子图进行编码通过多模态对比学习确保检索事实与生成文本的一致性。Knowledge edGPT [Wang et al. 2023]生成知识库搜索查询并将知识存储在个性化库中增强了RAG模型的知识丰富性和上下文性。 3在RAG中LLM生成的内容针对RAG中外部辅助信息的局限性一些研究侧重于利用LLM的内部知识。 SKR [Wang等2023e]将问题分类为已知或未知有选择地应用检索增强。GenRead [Yu et al. 2022]用LLM生成器替换了检索器发现LLM生成的上下文通常包含更准确的答案因为它更好地符合因果语言建模的预训练目标。Selfmem [Cheng et al. 2023b]使用检索增强生成器迭代创建无界内存池使用内存选择器选择作为原始问题对偶问题的输出从而自增强生成模型。这些方法强调了RAG中创新数据源利用的广度努力提高模型性能和任务有效性。 3增强过程在RAG领域中标准过程通常涉及一个检索步骤然后是生成这可能导致效率低下。一个值得注意的问题被称为 “中间丢失”现象当单个检索产生冗余内容可能会稀释或相矛盾的基本信息时从而降低生成质量[Liu et al. 2023a]。此外这种单步检索通常不足以解决需要多步推理的复杂问题因为它提供的信息范围有限[Yoran等人2023]。为了解决这些挑战当代研究提出了改进检索过程的方法迭代检索、递归检索和自适应检索。迭代检索允许模型进行多个检索周期增强了所获得信息的深度和相关性。递归检索过程其中一次检索操作的结果用作后续检索的输入。它有助于深入研究相关信息特别是在处理复杂或多步骤查询时。递归检索通常用于需要逐步得到最终答案的场景例如在学术研究、法律案例分析或某些类型的数据挖掘任务中。自适应检索提供了一种动态调整机制使检索过程适应不同任务和上下文的具体要求。 1迭代检索 RAG模型中的迭代检索是基于初始查询和迄今为止生成的文本重复收集文档的过程为LLM提供了更全面的知识库[Borgeaud等人2022,Arora等人2023]。这种方法已被证明可以通过多次检索迭代提供额外的上下文引用来增强后续答案生成的鲁棒性。然而它可能会受到语义不连续和不相关信息积累的影响因为它通常依赖于n个令牌序列来划定生成文本和检索文档之间的边界。 2递归检索递归检索常用于信息检索和自然语言处理以提高搜索结果的深度和相关性。该过程涉及基于从以前的搜索中获得的结果迭代地改进搜索查询。为了解决特定的数据场景使用了递归检索和多跳检索技术。递归检索涉及到以分层方式处理和检索数据的结构化索引其中可能包括在基于该摘要执行检索之前对文档或冗长PDF的各个部分进行总结。随后文档中的二次检索细化了搜索体现了该过程的递归性质。相比之下多跳检索旨在更深入地挖掘图结构数据源提取相互关联的信息[Li et al. 2023c]。此外一些方法集成了检索和生成的步骤。ITER-RETGEN [Shao等人2023]采用协同方法利用“检索增强生成”和“生成增强检索”来完成需要复制特定信息的任务。该模型利用处理输入任务所需的内容作为检索相关知识的上下文基础这反过来又有助于在随后的迭代中生成改进的响应。递归检索旨在通过反馈循环逐渐收敛到最相关的信息从而增强搜索体验。 IRCoT [Trivedi et al. 2022] 使用思维链(chain ofthought)来指导检索过程并利用获得的检索结果对CoT进行细化。ToC [Kim等人2023]创建了一个澄清树系统地优化查询中的模糊部分。在复杂的搜索场景中如果用户的需求从一开始就不完全清楚或者所寻求的信息非常专门化或微妙那么它特别有用。该过程的递归性质允许不断学习和适应用户的需求通常会提高对搜索结果的满意度。 3自适应检索自适应检索方法如Flare和SelfRAG [Jiang等人2023b, Asai等人2023]通过使llm能够主动确定检索的最佳时刻和内容从而提高了信息源的效率和相关性从而完善了RAG框架。这些方法是llm在其操作中采用主动判断的更广泛趋势的一部分正如在AutoGPT, Toolformer和Graph-Toolformer等模型代理中所看到的那样[Yang等人2023c, Schick等人2023,Zhang, 2023]。 Graph-Toolformer将其检索过程划分为不同的步骤其中llm主动使用检索器应用Self-Ask技术并使用少量提示来启动搜索查询。这种主动的姿态允许llm决定何时搜索必要的信息类似于代理如何利用工具。WebGPT [Nakano等人2021]集成了一个强化学习框架在文本生成过程中使用搜索引擎自主训练GPT-3模型。它使用特殊的令牌来导航这个过程这些令牌促进了搜索引擎查询、浏览结果和引用引用等操作从而通过使用外部搜索引擎扩展了GPT-3的功能。Flare通过监测生成过程的置信度来自动获取时序如生成项的概率所示[Jiang等2023b]。当概率低于某一阈值时将激活检索系统收集相关信息从而优化检索周期。Self-RAG [Asai等人2023]引入了“反思token”允许模型自省其输出。这些标记有两种:“检索”和“批评”。 1模型自主地决定何时激活检索或者通过预定义的阈值触发可能的流程。在检索过程中生成器在多个段落之间进行片段级波束搜索以获得最连贯的序列。 2评论分数用于更新细分分数在推理过程中可以灵活地调整这些权重从而调整模型的行为。 Self-RAG的设计不需要额外的分类器或依赖于自然语言推理(NLI)模型从而简化了何时使用检索机制的决策过程并提高了模型在生成准确响应方面的自主判断能力。 LLM优化由于其日益普及而受到了极大的关注。诸如提示工程、微调(FT)和RAG等技术各有不同的特征如下图所示。虽然快速工程利用了模型的固有功能但优化llm通常需要同时应用RAG和FT方法。RAG和FT之间的选择应该基于场景的特定需求和每种方法的固有属性。下表给出了RAG和FT的详细比较。 5、RAG评估 6、未来展望

查看全文

http://www.w-s-a.com/news/842062/