当前位置: 首页 > news >正文

手机建站网站在哪下载免费的英文版网站模板

手机建站网站,在哪下载免费的英文版网站模板,wordpress4.9.8中文版,网站个人建设论文地址#xff1a;https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来#xff0c;大规模无监督语言模型#xff08;LM#xff09;在知识获取和推理能力方面取得了显著进展#xff0c;但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来大规模无监督语言模型LM在知识获取和推理能力方面取得了显著进展但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈RLHF**来引导模型行为但RLHF存在以下问题 复杂性高RLHF需要先训练一个奖励模型来反映人类偏好然后使用强化学习来微调语言模型使其在最大化奖励的同时不偏离原始模型太远。不稳定性RLHF训练过程复杂且容易不稳定需要大量超参数调优和采样。计算成本高RLHF涉及训练多个模型和在训练循环中采样消耗大量计算资源。 2. DPO一种更简单、更高效的方法 为了解决上述问题本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法直接从人类偏好数据中优化语言模型而无需显式的奖励建模或强化学习。 2.1 DPO 的核心思想 DPO 的核心思想是 将偏好学习问题转化为一个简单的二元分类问题DPO 通过最大化人类偏好的对数概率同时最小化不偏好的对数概率来直接优化语言模型。引入动态重要性权重为了防止模型退化DPO 引入了基于隐式奖励模型的动态重要性权重该权重根据模型对偏好的排序错误程度进行调整。 2.2 DPO 的工作原理 构建偏好数据集从参考模型通常是经过监督微调的语言模型中采样生成多个候选响应并使用人类偏好数据对它们进行标注生成偏好对 ( y w , y l ) (y_w, y_l) (yw​,yl​)其中 y w y_w yw​ 表示更受偏好的响应 y l y_l yl​ 表示较不受偏好的响应。 定义 DPO 损失函数 L D P O ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right] LDPO​(πθ​;πref​)−E(x,yw​,yl​)∼D​[logσ(βlogπref​(yw​∣x)πθ​(yw​∣x)​−βlogπref​(yl​∣x)πθ​(yl​∣x)​)] π θ \pi_{\theta} πθ​待优化的语言模型。 π r e f \pi_{\mathrm{ref}} πref​参考模型通常是初始的监督微调模型。 β \beta β控制 KL 散度的超参数用于平衡奖励最大化与模型偏离程度。 σ \sigma σ sigmoid 函数将输入映射到 (0,1) 之间。 该损失函数鼓励模型生成更受偏好的响应同时惩罚生成不受偏好的响应。 优化模型 DPO 通过梯度下降法优化上述损失函数更新模型参数 θ \theta θ。 梯度计算如下 ∇ θ L D P O ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ( ∇ θ log ⁡ π ( y w ∣ x ) − ∇ θ log ⁡ π ( y l ∣ x ) ) ] \nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right] ∇θ​LDPO​(πθ​;πref​)−βE(x,yw​,yl​)∼D​[σ(r^θ​(x,yl​)−r^θ​(x,yw​))(∇θ​logπ(yw​∣x)−∇θ​logπ(yl​∣x))] 其中 r ^ θ ( x , y ) β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}_{\theta}(x,y) \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)} r^θ​(x,y)βlogπref​(y∣x)πθ​(y∣x)​ 表示隐式奖励模型。 当隐式奖励模型对偏好排序错误时权重 σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) \sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big) σ(r^θ​(x,yl​)−r^θ​(x,yw​)) 更大这意味着模型会更多地关注那些排序错误的样本从而更有效地纠正错误。梯度更新方向增加偏好响应的对数概率同时减少不偏好响应的对数概率。 3. DPO 的优势 无需显式奖励建模DPO 直接从偏好数据中学习无需训练单独的奖励模型简化了训练流程。无需强化学习DPO 使用简单的二元交叉熵损失进行优化避免了强化学习带来的复杂性和不稳定性。计算效率高DPO 训练过程更高效消耗的计算资源更少。性能优越实验表明DPO 在控制生成文本的情感、摘要生成和对话生成等任务上性能优于或至少与现有的 RLHF 方法相当。 4. 实验结果 4.1 情感生成任务 在控制情感生成任务中DPO 在奖励-KL 散度边界上表现优异能够在保持低 KL 散度的同时实现更高的奖励优于 PPO 等方法。 4.2 摘要生成任务 在 TL;DR 摘要生成任务中DPO 的胜率与参考摘要相比达到 61%高于 PPO 的 57%。 此外DPO 对采样温度的鲁棒性更强而 PPO 的性能在高温下会下降。 4.3 对话生成任务 在 Anthropic HH 对话数据集上DPO 是唯一一种在计算效率高的前提下能够超越首选完成度的方法并且其性能与计算成本更高的 Best of 128 基线相当。 4.4 泛化能力 在将 PPO 和 DPO 策略应用于不同分布CNN/DailyMail 新闻文章时DPO 仍然优于 PPO表明 DPO 策略具有较好的泛化能力。 4.5 GPT-4 评估与人类评估的一致性 为了验证 GPT-4 评估的可靠性本文进行了人类研究发现 GPT-4 的判断与人类判断的一致性较高表明 GPT-4 是人类评估的合理代理。 5. 讨论与未来方向 DPO 策略的泛化能力DPO 策略在不同分布上的表现如何与从显式奖励函数中学习相比如何奖励过度优化问题DPO 中是否存在奖励过度优化问题图 3 中性能的轻微下降是否是其表现DPO 的可扩展性DPO 能否扩展到更大规模的模型GPT-4 评估的改进如何更好地从自动化系统中获取高质量的判断DPO 的其他应用DPO 的应用范围可以扩展到其他模态的生成模型训练。 6. 总结 DPO 是一种无需强化学习的语言模型偏好优化方法具有以下优势 简化训练流程无需显式奖励建模和强化学习。计算效率高训练过程更高效消耗资源更少。性能优越在多个任务上表现优于或至少与现有的 RLHF 方法相当。 DPO 为训练更强大的、对齐的语言模型提供了一种更简单、更高效的方法。
http://www.w-s-a.com/news/507603/

相关文章:

  • 程序员招聘求职的网站做网站加入广告联盟
  • 网站建设的技术方案模板易做文学网站的logo
  • 建设国家标准官方网站响应式网站切图
  • 网站链接数怎么做wordpress安装网址
  • 沈阳建网站 哪家好如何做旅游网站推销
  • 继续网站建设南通网站建设方法
  • 淮南公司网站建设如果做京东优惠卷的网站
  • 二手房网站平台怎么做项目工程监理公司网站建设方案
  • 秦皇岛做网站公司小说推广平台有哪些
  • php网站做分享到朋友圈天元建设集团有限公司信用代码
  • 邱县做网站在线免费图片编辑器
  • 网站备份网站做网站如何把支付宝微信吧
  • 做网站的怎么获取客户信息晋城建设局网站
  • 新开传奇网站发布网单职业wordpress建站网页无法运作
  • 海南省住房和城乡建设厅官方网站网站开发有哪些语言
  • 网站开发排期表免费网站建设策划
  • 飞沐网站设计江苏建设人才网证书查询
  • 网站优化的意义怎么帮商家推广赚钱
  • 安顺公司做网站福州建设发展集团有限公司网站
  • 普陀企业网站建设做散客机票的网站如何推广
  • 河北网站建设与制作建设宁波市分行的互联网网站
  • python做网站是不是特别慢百度推广基木鱼
  • 卖网站链接东营住房和城乡建设信息网
  • 网站后台如何上传ico图标单位建设网站需要的材料
  • 如何建淘客网站郑州做网站最好的公司
  • 连锁酒店网站方案o2o网站建设方案
  • 功能型网站响应式网站原理
  • 聊城建设网站骨干校 建设网站
  • 网站建设与管理是干嘛的中国新闻社是什么单位
  • 帮别人做视频剪辑的网站传业做微采商城网站