当前位置：首页 > news >正文

怎么修改网站源文件怎么在手机上做企业网站

news 2025/12/17 9:06:31

怎么修改网站源文件,怎么在手机上做企业网站,网站开发甲方需求文档,万网归一什么时候启动摘要#xff1a;现有的安全保证研究主要集中在培训阶段的协调#xff0c;以向LLM灌输安全行为。然而#xff0c;最近的研究表明这些方法容易受到各种越狱攻击。同时#xff0c;推理扩展显著提高了LLM推理能力#xff0c;但在安全保证方面仍未得到探索。为了解决这一差距… 摘要现有的安全保证研究主要集中在培训阶段的协调以向LLM灌输安全行为。然而最近的研究表明这些方法容易受到各种越狱攻击。同时推理扩展显著提高了LLM推理能力但在安全保证方面仍未得到探索。为了解决这一差距我们的工作率先进行了推理扩展以实现针对新兴威胁的稳健有效的LLM安全。我们发现尽管传统的推理缩放技术在推理任务中取得了成功但在安全环境中表现不佳甚至不如最佳抽样等基本方法。我们将这种低效率归因于一个新发现的挑战即探索效率困境这是由于频繁的流程奖励模型PRM评估带来的高计算开销造成的。为了克服这一困境我们提出了SAFFRON这是一种专门为安全保证量身定制的新型推理缩放范式。我们的方法的核心是引入多分支奖励模型MRM这大大减少了所需的奖励模型评估次数。为了实现这一范式我们进一步提出iMRM的部分监督训练目标ii保守的探索约束以防止分布外探索以及iii基于Trie的键值缓存策略该策略在树搜索期间促进跨序列的缓存共享。广泛的实验验证了我们的方法的有效性。此外我们公开发布了经过训练的多叉奖励模型Saffron-1和附带的令牌级安全奖励数据集Safety4M以加速未来LLM安全的研究。我们的代码、模型和数据可在Github。Huggingface链接Paper page论文链接2506.06444。研究背景和目的研究背景随着大型语言模型LLMs的快速发展和广泛应用LLMs在带来巨大便利的同时也引入了新的安全风险。这些模型可能生成有害、误导性或违反政策的内容对现实世界的应用造成严重影响。现有的LLM安全保证研究主要集中于训练阶段的协调通过监督微调、直接偏好优化和基于人类反馈的强化学习等技术试图将安全行为灌输到LLM中。然而最近的研究表明这些方法容易受到各种越狱攻击即攻击者通过精心设计的输入绕过模型的安全机制诱导模型生成不安全的内容。与此同时推理缩放inference scaling作为一种新兴的技术显著提高了LLM的推理能力。推理缩放通过增加测试时的计算资源探索和排序多个候选轨迹从而在复杂推理任务中取得显著效果。然而在LLM安全保证领域推理缩放的应用仍然未被充分探索。传统的推理缩放技术在安全任务中的表现不佳甚至不如简单的采样方法。这主要是由于在安全任务中频繁的过程奖励模型PRM评估带来了巨大的计算开销导致了探索效率困境exploration-efficiency dilemma。研究目的本研究旨在填补这一研究空白探索推理缩放在LLM安全保证中的应用以应对新兴威胁。具体而言本研究的目的包括分析现有推理缩放技术在安全任务中的局限性通过系统分析揭示现有推理缩放技术在安全任务中表现不佳的原因特别是探索效率困境的问题。提出一种新的推理缩放范式针对安全保证的特殊需求提出一种名为SAFFRON的新型推理缩放范式旨在提高LLM在安全任务中的鲁棒性和效率。验证SAFFRON的有效性通过广泛的实验验证SAFFRON在应对各种越狱攻击时的有效性并与现有方法进行比较。发布相关资源和数据集公开发布经过训练的多叉奖励模型Saffron-1和附带的令牌级安全奖励数据集Safety4M以加速未来LLM安全的研究。研究方法方法概述本研究提出了SAFFRONSafe Multifurcation这一新型推理缩放范式旨在解决LLM安全保证中的探索效率困境。SAFFRON的核心在于引入多分支奖励模型MRM该模型能够一次性预测所有可能下一个令牌的奖励从而显著减少奖励模型评估的次数。为了实现这一范式本研究进一步提出了以下关键组件多分支奖励模型MRM不同于传统的PRMMRM能够同时预测所有可能下一个令牌的奖励大大减少了计算开销。部分监督训练目标针对MRM的训练提出了一种部分监督训练目标通过利用训练语料库中的所有前缀和令牌级奖励注释提高训练效率。保守探索约束为了避免分布外探索提出了一种保守探索约束通过掩码未见输出防止生成不安全的令牌。基于Trie的键值缓存策略利用Trie数据结构实现键值缓存的共享减少树搜索过程中的计算冗余。具体实现多分支奖励模型MRM 模型设计MRM是一个仅解码器的Transformer将当前序列作为输入预测奖励向量。每个奖励向量元素对应一个可能的下一个令牌的奖励。训练目标通过最小化预测奖励与观察到的PRM奖励之间的平方误差来训练MRM但仅使用训练语料库中的前缀确保每个令牌在语料库中得到充分利用。部分监督避免了对整个奖励向量进行全面监督的需要通过利用语料库中的所有前缀最大化每个令牌的利用率。保守探索约束问题由于MRM训练语料库的覆盖范围有限可能存在训练数据中未出现的令牌。解决方案通过掩码未见输出防止生成不安全或未见过的令牌确保探索过程保持在安全范围内。基于Trie的键值缓存缓存策略使用Trie数据结构实现键值缓存的共享减少树搜索过程中的计算冗余。Trie自然编码前缀以实现高效的缓存查找和分支确保在具有共同前缀的序列之间共享键值对。研究结果主要实验结果性能比较与现有方法比较在Ai2Refusals和Harmful HEx-PHI数据集上SAFFRON-1在各种越狱攻击下均表现出色著的改进ASR显著降低。与基线方法相比SAFFRON-1在给定计算资源下实现了更高的安全性和效率。定量比较在相同的推理计算预算下SAFFRON-1在所有评估指标上均优于基线方法证明了其在复杂推理任务中的有效性。资源消耗通过减少奖励模型评估次数SAFFRON-1实现了更高的计算效率在保持安全性的的同时降低了计算成本。详细分析多分支奖励模型MRM的有效性准确性实验表明MRM在预测观察奖励方面表现出色与观察到的PRM奖励高度相关。效率在更少的计算资源下SAFFRON-1实现了更高的安全性和效率。 Trie-based KV缓存时间复杂度Trie结构显著减少了时间复杂度尤其是在处理长序列时。空间效率通过缓存共享降低了内存使用。输出质量保留在保持安全性的的同时维持了输出质量。案例研究攻击成功率的比较SAFFRON-1在所有评估的攻击上均表现出色显著降低了ASR。对抗不同攻击在多种对抗性越狱攻击下保持稳健。研究局限尽管SAFFRON在提高LLM安全性和效率方面取得了显著成果但仍存在一些局限性数据集限制当前研究主要在特定数据集上进行测试未来需要在更多样化的数据集上验证泛化能力。模型依赖MRM的性能高度依赖于预训练的PRM未来需探索不依赖特定PRM的替代方案。可解释性虽然MRM减少了奖励评估次数但可能增加模型对特定类型攻击的敏感性。未来研究方向跨领域应用多模态数据集开发适用于多种任务和领域的数据集验证模型的泛化能力。动态奖励模型探索使用动态奖励模型指导训练提高模型对复杂场景的适应性。实时推理能力与现有系统的集成将SAFFRON与现有推理框架结合提升整体推理性能。结论本研究通过提出SAFFRON这一新型推理缩放范式有效解决了传统推理缩放技术在安全任务中面临的探索效率困境显著提高了LLM在安全场景下的性能和效率。具体而言本研究的主要贡献包括提出SAFFRON范式通过引入多分支奖励模型MRM和Trie-based缓存策略实现了高效的安全推理。创新点 MRM显著减少奖励评估次数提高计算效率。保守探索约束防止生成不安全或未见过的令牌提高模型安全性。Trie-based缓存共享通过Trie结构实现跨序列的缓存共享减少计算冗余。实验验证数据集使用Harmful HEx-PHI和Ai2Refusals数据集。结果SAFFRON-1在各种攻击场景下均表现优异。具体案例数据集Harmful HEx-PHI包含100个危险提示评估指标ASR攻击成功率

查看全文

http://www.w-s-a.com/news/204627/