当前位置: 首页 > news >正文

做网站找个人还是找公司视频制作平台

做网站找个人还是找公司,视频制作平台,页面设计报告,安徽省建设工程信网站一、InstructGPT是在GPT3上微调#xff0c;ChatGPT是在GPT3.5上微调 二、该论文展示了怎么样对语言模型和人类意图之间进行匹配#xff0c;方法是在人类的反馈上进行微调。 **三、方法简介#xff1a;**收集很多问题#xff0c;使用标注工具将问题的答案写出来#xff0… 一、InstructGPT是在GPT3上微调ChatGPT是在GPT3.5上微调 二、该论文展示了怎么样对语言模型和人类意图之间进行匹配方法是在人类的反馈上进行微调。 **三、方法简介**收集很多问题使用标注工具将问题的答案写出来用这些数据集对GPT3进行微调。接下来再收集一个数据集通过刚才微调的模型输入问题得到一些输出答案人工对这些答案按好坏进行排序然后通过强化学习继续训练微调后的模型这个模型就叫InstrunctGPT。 四、大的语言模型会生成有问题的输出因为模型训练用的目标函数不那么对。实际的目标函数在网上的文本数据预测下一个词。我们希望的目标函数根据人的指示、有帮助的、安全的生成答案。InstructGPT就是解决这个问题方法是RLHF(reinforcement learning from human feedback)基于人类反馈的强化学习。 五、重点两个标注数据集三个模型。 1、找人来写出各种各样的问题 2、让人根据问题写答案 3、将问题和答案拼在一起形成一段对话。 4、使用这些对话微调GPT3。GPT3的模型在人类标注的这些数据上进行微调出来的模型叫做SFT(supervised fine-tune)有监督的微调。这就是训练出来的第一个模型。 5、给出一个问题通过SFT模型生成几个答案 例如什么是月亮 SFT模型生成了四个答案 A、月亮是太阳系中离地球最近的天体。 B、月亮是太阳系中体积第五大的卫星。 C、月亮是由冰岩组成的天体在地球的椭圆轨道上运行。 D、月亮是地球的卫星。 6、将四个答案让人根据好坏程度进行排序。 7、将大量的人工排序整理为一个数据集就是第二个标注数据集。 8、使用排序数据集训练一个RM模型reward model奖励模型。这是第二个模型。 9、继续给出一些没有答案的问题通过强化学习继续训练SFT模型新的模型叫做RL模型(Reinforcement Learning)。优化目标是使得RF模型根据这些问题得到的答案在RM模型中得到的分数越高越好。这是第三个模型。 10、最终微调后的RL模型就是InstructGPT模型。 备注两次对模型的微调GPT3模型—SFT模型—RL模型其实这里始终都是同一个模型只是不同过程中名称不一样。 需要SFT模型的原因GPT3模型不一定能够保证根据人的指示、有帮助的、安全的生成答案需要人工标注数据进行微调。 需要RM模型的原因标注排序的判别式标注成本远远低于生成答案的生成式标注。 需要RF模型的原因在对SFT模型进行微调时生成的答案分布也会发生变化会导致RM模型的评分会有偏差需要用到强化学习。六、数据集问题 收集问题集prompt集标注人员写出这些问题写出一些指令用户提交一些他们想得到答案的问题。先训练一个最基础的模型给用户试用同时可以继续收集用户提交的问题。划分数据集时按照用户ID划分因为同一个用户问题会比较类似不适合同时出现在训练集和验证集中。 三个模型的数据集 1、SFT数据集13000条数据。标注人员直接根据刚才的问题集里面的问题写答案。 2、RM数据集33000条数据。标注人员对答案进行排序。 3、RF数据集31000条数据。只需要prompt集里面的问题就行不需要标注。因为这一步的标注是RM模型来打分标注的。 补充交叉熵用来评估标签和预测值之间的差距。这里是将排序的分数差转换成分类问题就可以计算分数差的分类1或者-1和真实预测值之间的差距1表示yw比yl排序更前-1表示yl比yw排序更前。 KL散度用来评估两个概率分布之间的相似度KL散度始终大于等于0。这里是用来评估πφRL和πSFT两个模型相似度两个模型相同则KL散度为0KL散度越大表示两个模型相差越大。 七、三种模型详解 一、SFT(Supervised fine-tuning)模型 把GPT3这个模型在标注好的第一个数据集问题答案上面重新训练一次。 由于只有13000个数据1个epoch就过拟合不过这个模型过拟合也没什么关系甚至训练更多的epoch对后续是有帮助的最终训练了16个epoch。 二、RM(Reward modeling)模型 把SFT模型最后的unembedding层去掉即最后一层不用softmax改成一个线性层这样RM模型就可以做到输入问题答案输出一个标量的分数。 RM模型使用6B而不是175B的原因 1、小模型更便宜 2、大模型不稳定loss很难收敛。如果你这里不稳定那么后续再训练RL模型就会比较麻烦。 损失函数输入是排序需要转换为值这里使用Pairwise Ranking Loss。 三、RL(Reinforcement learning)模型 这里用的是强化学习因为他的数据分布是随着策略的更新环境会发生变化的。优化算法是PPOProximal Policy Optimization近端策略优化。简单来说就是对目标函数objective(φ)通过随机梯度下降进行优化。 参数解释 1、πSFTSFT模型。 2、πφRL强化学习中模型叫做PolicyπφRL就是需要调整的模型即最终的模型。初始化是πSFT。 3、(x,y)∼DπφRLx是第三个数据集中的问题y是x通过πφRL模型得到的答案。 4、rθ(x,y)对问题x答案y进行打分的RM模型。 5、πφRL(y | x)问题x通过πφRL得到答案y的概率即对于每一个y的预测和它的softmax的输出相乘。 6、πSFT(y | x)问题x通过πSFT得到答案y的概率。 7、x∼Dpretrainx是来自GPT3预训练模型的数据。 8、β、γ调整系数。 目标函数理解 优化目标是使得目标函数越大越好objective(φ)可分成三个部分打分部分KL散度部分GPT3预训练部分 1、将第三个数据集中的问题x通过πφRL模型得到答案y 2、把一对(x,y)送进RM模型进行打分得到rθ(x,y)即第一部分打分部分这个分数越高就代表模型生成的答案越好 3、在每次更新参数后πφRL会发生变化x通过πφRL生成的y也会发生变化而rθ(x,y)打分模型是根据πSFT模型的数据训练而来如果πφRL和πSFT差的太多则会导致rθ(x,y)的分数估算不准确。因此需要通过KL散度来计算πφRL生成的答案分布和πSFT生成的答案分布之间的距离使得两个模型之间不要差的太远。 4、我们希望两个模型的差距越小越好即KL散度越小越好前面需要加一个负号使得objective(φ)越大越好。这个就是KL散度部分。 5、如果没有第三项那么模型最终可能只对这一个任务能够做好在别的任务上会发生性能下降。所以第三部分就把原始的GPT3目标函数加了上去使得前面两个部分在新的数据集上做拟合同时保证原始的数据也不要丢这个就是第三部分GPT3预训练部分。 6、当γ0时这个模型叫做PPO当γ不为0时这个模型叫做PPO-ptx。InstructGPT更偏向于使用PPO-ptx。 7、最终优化后的πφRL模型就是InstructGPT的模型。 以上就是InstructGPT的训练过程。 参考
http://www.w-s-a.com/news/119383/

相关文章:

  • 建设酒店网站ppt模板下载郑州小程序设计外包
  • 网站建设自我总结google推广公司
  • 安全网站建设情况wordpress 评论表单
  • 网站建设发言材料个人网站推广软件
  • php建站软件哪个好南京哪家做网站好
  • 排名好的手机网站建设番禺网站建设专家
  • 番禺怎么读百度有专做优化的没
  • 网站开发中应注意哪些问题网络营销的主要特点
  • 网站定制案例北京网站制作招聘网
  • 网站建设与推广实训小结网站建设专业英文
  • 郑州网站建设动态凡科网站建设是免费的吗
  • 湖北手机网站建设wordpress转emlog博客
  • 北京东站设计网名的花样符号
  • 安徽建设厅网站首页网站开发aichengkeji
  • 自贡网站制作荣茂网站建设
  • 什么做的网站吗正规的机械外包加工订单网
  • 网络工程公司的业务邵阳seo快速排名
  • 博主怎么赚钱网站seo找准隐迅推
  • 营销号经典废话北京网站建设公司网站优化资讯
  • 一六八互联网站建设怎么做套版网站
  • wordpress 书站建筑公司简介范文大全
  • 建设官方网站多少鲜花网站建设的主要工作流程
  • 卖主机网站轻量wordpress主题
  • 网站建设规划书结构制作一个自己的网站
  • 外贸网站商城建设做网站和推广
  • 网站建设微信群免费简约ppt模板
  • 哈尔滨网站设计公司哪家更好shopify和wordpress
  • 岚县网站建设网站建设中效果
  • 网站建设软文推广网站建设分金手指排名十四
  • 网站建设要什么知识广州注册公司地址怎么解决