当前位置：首页 > news >正文

网站安全监测镇江本地网

news 2025/12/16 22:16:49

网站安全监测,镇江本地网,wordpress倒计时插件下载,树莓派lamp WordPress目录 1摘要 2介绍方法及实验细节 3.1高层次方法论 3.2数据集 3.3任务 3.4人体数据收集 3.5模型 3.6评价 4 结果 4.1 API分布结果 4.2公共NLP数据集的结果 4.3定性结果问题 1.什么是rm分数更多资料 1摘要使语言模型更大并不能使它们更好地遵循用户的意图。例…目录 1摘要 2介绍方法及实验细节 3.1高层次方法论 3.2数据集 3.3任务 3.4人体数据收集 3.5模型 3.6评价 4 结果 4.1 API分布结果 4.2公共NLP数据集的结果 4.3定性结果问题 1.什么是rm分数更多资料 1摘要使语言模型更大并不能使它们更好地遵循用户的意图。例如大型语言模型可能生成不真实的、有害的或对用户没有帮助的输出。换句话说这些模型与它们的用户并不一致。在本文中我们展示了一种方法通过对人类反馈进行微调核心idea在广泛的任务中使语言模型与用户意图保持一致。从一组标注器编写的提示和通过OpenAI API提交的提示开始我们收集了一个标注器演示所需模型行为的数据集我们使用它来使用监督学习对GPT-3进行微调步骤一。然后我们收集模型输出排名的数据集我们使用从人类反馈中使用强化学习来进一步微调步骤二这个监督模型。我们将生成的模型称为InstructGPT名称。在我们的提示分布的人工评估中尽管参数少了100倍但来自13 b参数的InstructGPT模型的输出比来自175B参数的GPT-3的输出更受欢迎。此外在公共NLP数据集上InstructGPT模型显示出真实性的提高和有毒输出的减少同时具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误但我们的结果表明根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有希望的方向更小更安全。 2介绍大型语言模型(LMs)可以被“提示”执行一系列自然语言处理(NLP)任务给出一些任务示例作为输入。然而这些模型经常表达意想不到的行为如编造事实产生有偏见或有毒的文本或根本不遵循用户指示(Bender等人2021;Bommasani et al. 2021;Kenton et al. 2021;Weidinger et al. 2021;Tamkin et al. 2021;Gehman et al. 2020)。这是因为最近许多大型机器学习使用的语言建模目标——预测互联网网页上的下一个令牌——不同于“有效且安全地遵循用户的指示”的目标(Radford等人2019;Brown et al. 2020;Fedus等人2021;Rae et al. 2021;Thoppilan et al. 2022)。因此我们说语言建模目标是不一致的。避免这些意想不到的行为对于在数百个应用程序中部署和使用的语言模型尤其重要。我们通过训练语言模型按照用户的意图行事在对齐语言模型方面取得了进展(Leike et al. 2018)。这既包括明确的意图如遵循指示也包括隐含的意图如保持诚实不偏见不有毒或其他有害的。使用Askell等人(2021)的语言我们希望语言模型是有用的(他们应该帮助用户解决他们的任务)诚实的(他们不应该捏造信息或误导用户)无害的(他们不应该对人或环境造成身体、心理或社会伤害)。我们将在第3.6节详细说明这些标准的评估。我们专注于调整语言模型的微调方法。具体来说我们使用来自人类反馈的强化学习(RLHF;Christiano et al. 2017;Stiennon et al. 2020)微调GPT-3以遵循广泛的书面指令(见图2)。该技术使用人类偏好作为奖励信号来微调我们的模型。我们首先雇佣了一个由40名承包商组成的团队根据他们在筛选测试中的表现来标记我们的数据(详见第3.4节和附录B.1)。然后我们收集提交给OpenAI API 3的提示(主要是英语)和一些标注器编写的提示的期望输出行为的人工编写演示数据集并使用它来训练我们的监督学习基线。接下来我们在一组更大的API提示符上收集模型输出之间的人工标记比较数据集。然后我们在这个数据集上训练一个奖励模型(RM)来预测我们的标注器更喜欢哪个模型输出。最后我们使用该RM作为奖励函数并使用PPO算法微调我们的监督学习基线以最大化该奖励(Schulman et al. 2017)。我们在图2中说明了这个过程。这一过程将GPT-3的行为与特定人群(主要是我们的标注者和研究人员)的既定偏好相一致而不是与任何更广泛的“人类价值观”概念相一致;我们将在5.2节进一步讨论这一点。我们将生成的模型称为InstructGPT。我们主要通过让我们的标签器对我们的测试集上的模型输出的质量进行评价来评估我们的模型测试集由来自闲置客户(未在训练数据中表示的客户)的提示组成。我们还对一系列公共NLP数据集进行自动评估。我们训练了三种模型尺寸(1.3B、6B和175B参数)我们所有的模型都使用GPT-3架构。我们的主要发现如下: 与GPT-3的输出相比标注者明显更喜欢InstructGPT的输出。在我们的测试集中尽管参数少了100倍以上但来自13 b参数的InstructGPT模型的输出比来自175B的GPT-3的输出更受欢迎。这些模型具有相同的体系结构不同之处在于InstructGPT对我们的人类数据进行了微调。即使我们在GPT-3中添加几次提示以使其更好地遵循指示这个结果仍然成立。我们的175B InstructGPT输出在85±3%的时间内优于175B GPT-3输出在71±4%的时间内优于少量的175B GPT-3输出。InstructGPT模型还根据我们的标注器生成更合适的输出并且更可靠地遵循指令中的显式约束。与GPT-3相比InstructGPT模型的真实性有所提高。在TruthfulQA基准测试中InstructGPT生成真实且信息丰富的答案的频率是GPT-3的两倍。我们的结果在没有针对GPT-3对抗性选择的问题子集上同样强大。在我们的API提示分布中的“闭域”任务中输出不应该包含输入中不存在的信息(例如摘要和闭域QA) InstructGPT模型弥补输入中不存在的信息的频率约为GPT-3的一半(分别为21%和41%的幻觉率)。与GPT-3相比InstructGPT在毒性方面略有改善但没有偏倚。为了测量毒性我们使用RealToxicityPrompts数据集(Gehman等人2020)并进行自动和人工评估。当提示尊重时InstructGPT模型产生的有毒输出比GPT-3少25%。在Winogender (Rudinger et al. 2018)和CrowSPairs (Nangia et al. 2020)数据集上InstructGPT与GPT-3相比没有显著改善。我们可以通过修改我们的RLHF微调过程来最小化公共NLP数据集上的性能回归。在RLHF微调期间我们观察到与GPT-3相比在某些公共NLP数据集上的性能回归特别是SQuAD (Rajpurkar等人2018)、DROP (Dua等人2019)、HellaSwag (Zellers等人2019)和WMT 2015法语到英语的翻译(Bojar等人2015)。这是一个“对齐税”的例子因为我们的对齐过程是以我们可能关心的某些任务的较低性能为代价的。我们可以通过混合PPO更新和增加预训练分布(PPO-ptx)的日志似然的更新来大大减少这些数据集上的性能回归而不会影响标签器偏好得分。我们的模型推广到没有产生任何训练数据的“搁置”标注者的偏好。为了测试我们模型的泛化我们对伸出的标记器进行了初步实验发现它们更喜欢InstructGPT输出而不是GPT-3输出其速率与我们的训练标记器大致相同。然而需要做更多的工作来研究这些模型在更广泛的用户群体上的表现以及它们在人类不同意期望行为的输入上的表现。公共NLP数据集不能反映我们的语言模型是如何被使用的。我们比较了在人类偏好数据(即InstructGPT)上进行微调的GPT-3与在两种不同的公共NLP任务汇编上进行微调的GPT-3: FLAN (Wei等人2021)和T0 (Sanh等人2021)(特别是t0变体)。这些数据集由各种NLP任务组成并结合每个任务的自然语言指令。在我们的API提示分布上我们的FLAN和T0模型的表现略差于我们的SFT基线而标注者明显更喜欢InstructGPT而不是这些模型(与我们的基线相比InstructGPT的胜率为73.4±2%而我们的T0和FLAN版本分别为26.8±2%和29.8±2%)。 InstructGPT模型对RLHF调优分布之外的指令显示出有希望的泛化。我们定性地考察了InstructGPT的功能发现它能够遵循总结代码的指令回答有关代码的问题有时还可以遵循不同语言的指令尽管这些指令在微调发行版中非常罕见。相比之下GPT-3可以执行这些任务但需要更仔细的提示并且通常不遵循这些领域的指示。这个结果令人兴奋因为它表明我们的模型能够概括“遵循指令”的概念。即使在他们很少得到直接监督信号的任务上他们也会保持一定的一致性。讲师仍然会犯一些简单的错误。例如InstructGPT仍然可能无法遵循指令编造事实对简单的问题给出冗长的模棱两可的答案或者无法检测带有错误前提的指令。总的来说我们的研究结果表明使用人类偏好对大型语言模型进行微调可以显著改善它们在广泛任务中的行为尽管要提高它们的安全性和可靠性还有很多工作要做。本文的其余部分结构如下:我们首先在第2节详细介绍相关工作然后在第3节深入介绍我们的方法和实验细节包括我们的高级方法(3.1)任务和数据集细节(3.3和3.2)人类数据收集(3.4)我们如何训练我们的模型(3.5)以及我们的评估程序(3.6)。然后我们在第4节中展示了我们的结果分为三个部分:API提示分布的结果(4.1)公共NLP数据集的结果(4.2)和定性结果(4.3)。最后我们在第5节中对我们的工作进行了扩展讨论包括对齐研究的含义(5.1)我们对齐的内容(5.2)限制(5.3)开放问题(5.4)以及本工作的更广泛影响(5.5)。方法及实验细节 3.1高层次方法论我们的方法遵循Ziegler等人(2019)和Stiennon等人(2020)的方法他们将其应用于风格转换和总结summarization领域方法还是老方法用到新的领域上。我们从预训练的语言模型开始(Radford et al. 2019;Brown et al. 2020;Fedus等人2021;Rae et al. 2021;Thoppilan et al. 2022)我们希望我们的模型产生一致输出的提示分布以及训练有素的人类标注员团队(详见第3.4节)。然后我们应用以下三个步骤(图2)。步骤1:收集演示数据并训练受监督的策略。我们的标签器在输入提示分布上提供了所需行为的演示(有关此分布的详细信息请参阅第3.2节)。然后我们使用监督学习对该数据的预训练GPT-3模型进行微调。步骤2:收集比较数据训练奖励模型。我们收集模型输出之间比较的数据集其中标注者指出他们更喜欢给定输入的输出。然后我们训练一个奖励模型来预测人类偏好的输出。步骤3:使用PPO针对奖励模型优化策略。我们使用RM的输出作为标量奖励。我们使用PPO算法微调监督策略以优化该奖励(Schulman et al. 2017)。步骤2和步骤3可以连续迭代;收集更多当前最佳策略的比较数据用于训练新的RM然后训练新的策略。在实践中我们的大部分比较数据来自我们的监督保单还有一些来自我们的PPO保单。 3.2数据集我们的提示数据集主要由提交给OpenAI API的文本提示组成特别是那些在Playground界面上使用早期版本的InstructGPT模型(通过监督学习在我们的演示数据子集上进行训练)的文本提示。使用Playground的客户被告知他们的数据可以在任何时候使用InstructGPT模型时通过循环通知来训练进一步的模型。在本文中我们没有使用客户在生产中使用API的数据。我们通过检查提示是否共享一个很长的公共前缀来启发式地去重复提示并且我们将每个用户ID的提示数量限制为200。我们还基于用户ID创建训练、验证和测试分割使用用户也贡献了客户的这样验证和测试集就不包含来自训练集中的用户的数据。为了避免模型学习到潜在的敏感客户细节我们过滤了训练分割中的所有提示以获取个人身份信息(PII)。为了训练第一个InstructGPT模型我们要求标注者自己写提示。这是因为我们需要一个初始的类似指令的提示源来引导过程而这些类型的提示通常不会提交给API上的常规GPT-3模型。我们要求贴标员写出三种提示雇佣的40个人: •简单:我们简单地要求标签员提出一个任意的任务同时确保任务具有足够的多样性。 •Few-shot:我们要求标注者提出一条指令以及针对该指令的多个查询/响应对。 •基于用户:我们在OpenAI API的等待列表应用程序中列出了许多用例。我们要求标注者提出与这些用例相对应的提示。根据这些提示我们生成了用于微调过程的三个不同的数据集: (1)我们的SFT数据集包含用于训练SFT模型的标记器演示; (2)我们的RM数据集包含用于训练RM的模型输出的标记器排名; (3)我们的PPO数据集没有任何人工标签用作RLHF微调的输入。 SFT数据集包含大约13k个训练提示(来自API和标注器编写)RM数据集有33k个训练提示(来自API和标注器编写)PPO数据集有31k个训练提示(仅来自API)。表6提供了关于数据集大小的更多细节。为了给我们的数据集的组成一种感觉在表1中我们显示了我们的承包商标记的API提示(特别是RM数据集)的用例类别的分布。大多数用例都是生成的而不是分类或QA。我们还在表2中展示了一些说明性提示(由研究人员编写以模仿提交给InstructGPT模型的提示类型);提交给InstructGPT模型的更多提示见附录A.2.1提交给GPT-3模型的提示见附录A.2.2。我们在附录A中提供了关于我们数据集的更多细节。 3.3任务我们的培训任务有两个来源:(1)由我们的标注者编写的提示数据集和(2)提交给我们API上的早期InstructGPT模型的提示数据集(见表6)。这些提示非常多样化包括生成、问答、对话、摘要、提取和其他自然语言任务(见表1)。我们的数据集超过96%是英语但是在第4.3节中我们还探讨了我们的模型响应其他语言指令和完成编码任务的能力。对于每个自然语言提示任务通常是通过自然语言指令直接指定的(例如“写一个关于聪明青蛙的故事”)但也可以通过少量例子间接指定(例如给出两个青蛙故事的例子并提示模型生成一个新的)或隐含的延续(例如提供一个关于青蛙的故事的开始)。在每种情况下我们都要求标注者尽最大努力推断出写提示的用户的意图并要求他们跳过任务非常不清楚的输入。此外在我们提供给他们的指示(见附录B)和他们的最佳判断的指导下我们的标注者还考虑到隐含的意图如回应的真实性以及潜在的有害输出如有偏见或有毒的语言。 3.4人体数据收集为了制作我们的演示和比较数据并进行我们的主要评估我们在Upwork和ScaleAI上雇佣了一个大约40人的承包商团队。与早期收集人类对总结任务的偏好数据的工作相比(Ziegler et al. 2019;Stiennon et al. 2020;Wu et al. 2021)我们的输入跨越了更广泛的任务范围并且偶尔可能包括有争议和敏感的话题。我们的目标是选择一组对不同人口群体的偏好敏感的标签者他们善于识别潜在有害的输出。因此我们进行了筛选测试旨在衡量这些轴上的标签器性能。我们选择了在这个测试中表现良好的贴标员;有关我们的选择程序和标签商人口统计的更多信息请参见附录B.1。在培训和评估期间我们的校准标准可能会发生冲突:例如当用户请求潜在的有害响应时。在培训期间我们优先考虑对用户的帮助(不这样做需要做出一些困难的设计决策我们把这些决策留给未来的工作;更多讨论请参见5.4节)。然而在我们最后的评估中我们要求标签商优先考虑真实性和无害性(因为这是我们真正关心的)。正如Stiennon等人(2020)所述我们在项目过程中与标签商密切合作。我们有一个培训项目标注员的入职过程为每个任务编写详细的说明(参见附录B.2)并在共享聊天室中回答标注员的问题。作为一项初步研究看看我们的模型如何很好地推广到其他标注员的偏好我们雇佣了一组单独的标注员他们不产生任何训练数据。这些标签来自相同的供应商但没有经过筛选测试。尽管任务很复杂但我们发现注释者之间的一致性率相当高:训练标注者的一致性率为72.6±1.5%而未训练的标注者的一致性率大家都认可为77.3±1.3%。相比之下在Stiennon et al.(2020)的总结工作中研究者与研究者的一致性为73±4%。 3.5模型我们从Brown等人(2020)的GPT-3预训练语言模型开始。这些模型是在广泛分布的互联网数据上进行训练的可以适应广泛的下游任务但行为特征不佳。从这些模型开始我们用三种不同的技术训练模型: 1. 监督微调(SFT)。我们使用监督学习对标记器演示中的GPT-3进行微调。我们训练了16个epoch使用余弦学习率衰减残差为0.2。我们根据验证集上的RM分数进行最终的SFT模型选择。与Wu等人(2021)类似我们发现我们的SFT模型在1个历元后的验证损失上过拟合;然而我们发现尽管存在过拟合但更多的训练对RM分数和人类偏好评级都有帮助。 2. 奖励建模(RM)。从移除最后的非嵌入层的SFT模型开始我们训练了一个模型来接收提示和响应并输出标量奖励。在本文中我们只使用6B RM因为这样可以节省大量的计算我们发现175B RM训练可能是不稳定的因此不太适合作为RL中的值函数(详见附录C)。在Stiennon et al.(2020)中RM在相同输入的两个模型输出之间的比较数据集上进行训练。他们使用交叉熵损失以比较作为标签——奖励的差异代表了人类标记者更喜欢一种反应的对数赔率。为了加速比较收集我们提供了K 4到K 9之间的任何标签器对rank的响应。这将为显示给标记器的每个提示生成K 2比较。自在每个标记任务中比较是非常相关的我们发现如果我们简单地将比较洗牌到一个数据集中那么对数据集的一次传递就会导致奖励模型过拟合。相反我们将每个提示的所有k2 比较作为单个批处理元素进行训练。这在计算效率上要高得多因为每次完井只需要RM的一次前向传递(而不是K次前向传递K次完井)而且因为它不再过拟合 2 实现了大大改进的验证准确性和日志丢失。具体来说奖励模型的损失函数为:其中r θ (x, y)是奖励模型对提示x和完成y的标量输出参数为θ y w是y w和y l对中的首选完成D是人类比较的数据集。日志_{5}\(\θ) - \压裂{1}{(2)}E (E, g _ {2}) (1) 最后由于RM损失对奖励的变化是不变的我们使用偏差对奖励模型进行规范化以便在进行强化学习之前标记器演示达到平均得分0。 3. 强化学习(RL)。继Stiennon等人(2020)之后我们再次使用PPO对环境中的SFT模型进行了微调(Schulman等人2017)。环境是一个强盗环境它呈现随机的客户提示并期望对提示做出响应。给定提示和反应它会产生由奖励模型决定的奖励并结束情节。此外我们在每个令牌上添加了来自SFT模型的每个令牌KL惩罚以减轻奖励模型的过度优化。从RM初始化值函数。我们称这些模型为“PPO”。我们还尝试将预训练梯度混合到PPO梯度中以修复公共NLP数据集上的性能回归。我们称这些模型为“PPO-ptx”。我们在强化学习训练中最大化以下组合目标函数: 其中π φ RL为学习到的RL策略π SFT为监督训练模型D预训练为预训练分布。KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型γ设置为0。除另有说明外本文中InstructGPT指PPO-ptx型号。基线。我们将我们的PPO模型的性能与我们的SFT模型和GPT-3进行比较。我们还比较了GPT-3它提供了几个前缀来“提示”它进入指令遵循模式(GPT-3提示)。此前缀附加在用户指定的指令之前。6 我们还将InstructGPT与FLAN (Wei等人2021)和T0 (Sanh等人2021)数据集上的微调175B GPT-3进行了比较这两个数据集都由各种NLP任务组成并结合了每个任务的自然语言指令(数据集在包括的NLP数据集和使用的指令风格上有所不同)。我们分别在大约100万个样本上对它们进行微调并选择在验证集中获得最高奖励模型分数的检查点。更多培训细节见附录C。 3.6评价为了评估我们的模型是如何“对齐”的我们首先需要澄清在这个上下文中对齐意味着什么。对齐的定义历来是一个模糊而令人困惑的话题有各种相互竞争的建议(Chen et al. 2021;Leike et al. 2018;盖伯瑞尔,2020)。继Leike等人(2018)之后我们的目标是训练与用户意图一致的模型。更实际的是为了我们的语言任务的目的我们使用了类似于Askell等人(2021)的框架他们定义了如果模型有帮助、诚实和无害则将其对齐。为了提供帮助模型应该遵循说明但也可以从几个提示或另一个可解释的模式(如“Q: {question}\nA:”)中推断意图。由于给定提示的意图可能不明确或模棱两可我们依赖于标签者的判断我们的主要度量是标签者偏好评级。然而由于我们的标注者并不是生成提示的用户因此在用户的实际意图和标注者仅通过阅读提示而想到的意图之间可能存在分歧。目前尚不清楚如何在纯生成模型中衡量诚实;这需要将模型的实际输出与它对正确输出的“信念”进行比较由于模型是一个大黑箱我们无法推断它的信念。相反我们使用两个指标来衡量真实性——模型对世界的陈述是否真实:(1)评估我们的模型在封闭领域任务(“幻觉”)上构成信息的倾向(2)使用TruthfulQA数据集(Lin等人2021)。不用说这只抓住了真实的一小部分含义。与诚实类似衡量语言模型的危害也带来了许多挑战。在大多数情况下语言模型的危害取决于它们的输出在现实世界中的使用方式。例如生成有毒输出的模型在部署的聊天机器人的上下文中可能是有害的但如果用于数据增强以训练更准确的毒性检测模型甚至可能是有帮助的。在项目早期我们让标签员评估某个输出是否有“潜在危害”。但是我们停止了这项工作因为它需要对最终如何使用产出进行过多的猜测;特别是因为我们的数据也来自与Playground API接口交互的客户(而不是来自生产用例)。因此我们使用一套更具体的代理标准旨在捕获已部署模型中可能最终有害的行为的不同方面:我们有标签器评估输出是否在客户助理的上下文中不适当诋毁受保护的类别或包含性或暴力内容。我们还在旨在测量偏倚和毒性的数据集上对我们的模型进行基准测试例如RealToxicityPrompts (Gehman等人2020)和CrowS-Pairs (Nangia等人2020)。综上所述我们可以将定量评估分为两个独立的部分:API分布评估。我们的主要指标是人类对一组提示的偏好评级这些提示来自与我们的训练分布相同的来源。当使用来自API的提示进行评估时我们只选择培训中没有包括的客户的提示。然而考虑到我们的训练提示被设计为与InstructGPT模型一起使用它们很可能会使GPT-3基线处于劣势。因此我们还对API上提交给GPT-3模型的提示进行了评估;这些提示通常不是“指令跟随”式的而是专门为GPT-3设计的。在这两种情况下对于每个模型我们计算其输出优先于基线策略的频率;我们选择我们的175B SFT模型作为基准因为它的性能接近中间。此外我们要求标注者在1-7李克特量表上判断每个回答的整体质量并为每个模型输出收集一系列元数据(见表3)。对公共NLP数据集的评估。我们对两种类型的公共数据集进行了评估:一种是捕获语言模型安全性的一个方面特别是真实性、毒性和偏见另一种是捕获传统NLP任务(如问答、阅读理解和总结)的零射击性能。我们还在RealToxicityPrompts数据集上对毒性进行了人体评估(Gehman等人2020)。我们正在从所有基于采样的NLP任务的模型中发布样本。 4 结果在本节中我们为第1节中的主张提供了实验证据分为三部分:API提示分布的结果、公共NLP数据集的结果和定性结果。 GPT GPT(提示) SFT PPO PPO-ptx 4.1 API分布结果与GPT-3的输出相比标注者明显更喜欢InstructGPT的输出。在我们的提示测试集上我们的标注器明显更喜欢不同模型大小的InstructGPT输出。这些结果如图1所示。我们发现GPT-3输出表现最差可以通过使用精心设计的少数镜头提示(GPT-3(提示))然后使用监督学习(SFT)对演示进行训练最后使用PPO对比较数据进行训练从而获得显着的步长改进。在PPO期间添加预训练组合的更新不会导致标签者偏好的大变化。为了说明我们的增益幅度:当直接比较时175B InstructGPT输出在85%±3%的情况下优于GPT-3输出在71±4%的情况下优于少量GPT-3输出。我们还发现当对提交给API上的GPT-3模型的提示进行评估时我们的结果没有显著变化(参见图3)尽管我们的PPO-ptx模型在更大的模型尺寸下表现略差。在图4中我们展示了标记器还沿着几个更具体的轴对InstructGPT输出进行了有利的评价。具体来说与GPT-3相比InstructGPT的输出更适合于客户助理的上下文更经常遵循指令中定义的明确约束(例如“用2段或更短的时间写出你的答案”)。)不太可能完全遵循正确的指示并且在封闭领域的任务中不太经常编造事实(“幻觉”)。这些结果表明与GPT-3相比InstructGPT模型更可靠更易于控制。我们发现我们的其他元数据类别在我们的API中出现的频率太低无法在我们的模型之间获得统计上显著的差异。我们的模型推广到没有产生任何训练数据的“搁置”标注者的偏好。hold -out标注者与我们用来生成训练数据的工作者有着相似的排名偏好(参见图3)。特别是根据hold -out标注者的说法我们所有的InstructGPT模型仍然大大优于GPT-3基线。因此我们的InstructGPT模型并不是简单地过度拟合训练标注器的偏好。我们从奖励模型的泛化能力中看到了进一步的证据。我们进行了一个实验我们将标签器分成5组并使用5倍交叉验证(在4组中进行训练并在保留组中进行评估)训练5个RMs(带有3个不同的种子)。这些均方根值在预测未完成组的标注者偏好方面的准确度为69.6±0.9%与他们在预测训练集中的标注者偏好方面的准确度72.4±0.4%相比略有下降。公共NLP数据集不能反映我们的语言模型是如何被使用的。在图5中我们还将InstructGPT与我们在FLAN (Wei et al. 2021)和T0 (Sanh et al. 2021)数据集上微调的175B GPT-3基线进行了比较(详见附录C)。我们发现这些模型比GPT-3表现更好与GPT-3在精心选择的提示下相当比我们的SFT基线差。这表明这些数据集的多样性不足以提高我们的API提示分发的性能。在头对头的比较中我们的175B InstructGPT模型输出优于我们的FLAN模型(78±4%)优于我们的T0模型(79±4%)。这些模型的Likert分数如图5所示。我们认为我们的InstructGPT模型优于FLAN和T0有两个原因。首先公共NLP数据集旨在捕获易于使用自动度量进行评估的任务例如分类、问答以及一定程度上的摘要和翻译。然而分类和QA只是API客户使用我们的语言模型的一小部分(约18%)而根据标注者开放式生成和头脑风暴构成了我们提示数据集的约57%(见表1)。其次公共NLP数据集很难获得非常高的输入多样性(至少在现实世界用户可能感兴趣的输入类型上)。当然在NLP数据集中发现的任务确实代表了我们希望语言模型能够解决的一种指令因此最广泛的类型指令遵循模型将结合两种类型的数据集。 4.2公共NLP数据集的结果与GPT-3相比InstructGPT模型的真实性有所提高。根据人类对TruthfulQA数据集的评估与GPT-3相比我们的PPO模型在生成真实和信息丰富的输出方面显示出微小但显著的改进(见图6)。这种行为是默认的:我们的模型不需要特别指示来告诉真相以显示改进的真实性。有趣的是我们的13 b PPO-ptx模型是个例外它的性能比相同大小的GPT-3模型略差。当仅对未与GPT-3对抗性选择的提示进行评估时我们的PPO模型仍然比GPT-3更加真实和信息丰富(尽管绝对改进减少了几个百分点)。继Lin等人(2021)之后我们还给出了一个有用的“指令QA”提示指示模型在不确定正确答案时回答“我没有评论”。在这种情况下我们的PPO模型更倾向于诚实和不提供信息而不是自信地说假话;基线GPT-3模型在这方面就不那么好了。我们在真实性方面的改进还可以通过以下事实得到证明:我们的PPO模型在API分布的闭域任务上出现幻觉(即捏造信息)的频率降低了如图4所示。与GPT-3相比InstructGPT在毒性方面略有改善但没有偏倚。我们首先在RealToxicityPrompts数据集上评估我们的模型(Gehman et al. 2020)。我们通过两种方式做到这一点:我们通过Perspective API 8运行模型样本以获得自动毒性评分这是该数据集的标准评估程序我们还将这些样本发送给标记者以获得绝对毒性相对于提示连续性和总体输出偏好的毒性评级。我们根据提示毒性从该数据集中统一采样提示以更好地评估我们的模型在高输入毒性下的表现(见附录E中的图39);这与该数据集的标准提示抽样不同因此我们的绝对毒性数值被夸大了。我们的结果如图7所示。我们发现当指示产生安全和尊重的输出(“尊重提示”)时根据Perspective API, InstructGPT模型产生的有毒输出比GPT-3模型产生的有毒输出少。当恭敬的提示被删除(“无提示”)时这种优势就消失了。有趣的是当显式提示生成有毒输出时InstructGPT输出的毒性比GPT-3的要大得多(参见图39)。这些结果在我们的人类评估中得到了证实:在“尊重提示”设置下InstructGPT的毒性比GPT-3小但在“无提示”设置下表现相似。我们在附录e中提供了扩展结果。总结:根据提示我们所有的模型都被评为毒性低于预期(它们在-1到1的范围内得到负值其中0表示“毒性与预期一样”)。我们的SFT基线是我们所有模型中毒性最小的但也具有最低的连续性并且在我们的排名中是最不受欢迎的这可能表明模型产生非常短的或退化的响应。为了评估模型产生偏见语音的倾向(见附录E)我们还在Winogender (Rudinger et al. 2018)和CrowS-Pairs (Nangia et al. 2020)数据集的修改版本上评估了InstructGPT。这些数据集由句子对组成可以突出潜在的偏见。我们计算每对句子产生的相对概率以及相关二进制概率分布的熵(以比特为单位)。完全无偏模型将在每对句子之间没有偏好因此将具有最大的熵。根据这个指标我们的模型的偏差并不比GPT-3小。PPO-ptx模型显示出与GPT-3相似的偏差但当指示尊重行为时它显示出更低的熵因此更高的偏差。偏倚的模式尚不清楚;看来受指导的模型对它们的输出更加确定而不管它们的输出是否表现出刻板行为。我们可以通过修改我们的RLHF微调过程来最小化公共NLP数据集上的性能回归。默认情况下当我们在API分布上训练PPO模型时它会遭受“对齐税”因为它在几个公共NLP数据集上的性能会下降。我们想要一个避免校准税的校准过程因为它鼓励使用非校准但在这些任务上更有能力的模型。提示: 下面代码中的列表C的目的是什么? Def binomial_coefficient(n, r): C [0 for i in range(r 1)]; C[0] 1; 对于I在(1,n 1)范围内: J min(i, r); 当j 0时: C[j] C[j - 1]; J - 1; 返回C[r] GPT-3 175B完成: A.存储C的值[0] B.存储C的值[1] C.存储C的值[i] D.存储C[i - 1]的值列表C在此代码中用于存储二项式系数 n和r的值用于计算值对于给定的n和二项式系数方法的最终返回值中存储结果函数。在图29中我们展示了将预训练更新添加到PPO微调(PPO-ptx)中可以减轻所有数据集上的这些性能回归甚至超过HellaSwag上的GPT-3。PPO-ptx模型在DROP、SQuADv2、翻译等方面的性能仍落后于GPT-3;需要做更多的工作来研究和进一步消除这些性能回归。混合预训练更新比增加KL系数的简单解决方案表现更好。在图33中我们展示了一个预训练混合系数的值它既反转了SQuADv2和DROP(我们用于测试的数据集)上的性能回归又在验证奖励上有最小的减少。相反增加KL系数(图34)会导致验证奖励显著减少并且在DROP和SQuAD上永远无法完全恢复。将KL模型从PPO初始化更改为GPT-3会得到类似的结果。 4.3定性结果 InstructGPT模型对RLHF调优分布之外的指令显示出有希望的泛化。特别是我们发现InstructGPT显示了遵循非英语语言指令的能力并对代码执行摘要和问答。这是提示: 有趣的是非英语语言和代码构成了我们微调数据的一小部分9并且它表明在某些情况下对齐方法可以推广到在人类没有直接监督的输入上产生所需的行为。我们没有定量地跟踪这些行为但是我们在图8中展示了一些定性的例子。我们的175B PPO-ptx模型能够可靠地回答有关代码的问题并且还可以遵循其他语言的说明;然而我们注意到即使指令是另一种语言它也经常输出英语。相比之下我们发现GPT-3可以执行这些任务但需要更仔细的提示并且很少遵循这些领域的指令。讲师仍然会犯一些简单的错误。在与我们的175B PPO-ptx模型交互时我们注意到它仍然会犯简单的错误尽管它在许多不同的语言任务上表现出色。举几个例子:(1)当给出一个带有错误前提的指令时模型有时会错误地假设前提为真;(2)模型可能会过度对冲;当给出一个简单的问题时它有时会说这个问题没有一个答案并给出多个可能的答案即使上下文中有一个相当明确的答案并且(3)当指令包含多个明确的约束(例如“列出20世纪30年代以法国为背景拍摄的10部电影”)或当约束对语言模型具有挑战性时(例如用指定数量的句子写摘要)模型的性能会下降。我们在图9中展示了这些行为的一些示例。我们怀疑行为(2)的出现部分是因为我们指示标注者奖励认知上的谦卑;因此他们可能倾向于奖励那些对冲的产出这被我们的奖励模型捕捉到了。我们怀疑行为(1)的发生是因为训练集中很少有假设错误前提的提示而且我们的模型不能很好地泛化到这些例子。我们相信这两种行为都可以通过对抗性数据收集而大大减少(Dinan et al. 2019b)。问题 1.什么是rm分数 RM分数是指奖励建模Reward Modeling训练中使用的评估指标。在训练语言模型时通过比较两个模型输出在相同输入上的表现使用交叉熵损失函数来训练奖励模型RM其中比较的结果作为标签奖励模型的输出表示一个模型输出相对于另一个模型输出被人类标注者更喜欢的对数几率。RM分数则表示奖励模型在验证集上的性能表现。在本文中RM分数被用于选择最终的SFT模型Supervised Fine-Tuning和评估奖励模型的性能。研究人员发现相比于验证损失RM分数更能预测人类偏好结果。因此通过优化RM分数可以提高模型的性能和人类偏好度。更多资料【1】 InstructGPT 论文精读【论文精读·48】_哔哩哔哩_bilibili

查看全文

http://www.w-s-a.com/news/694111/