手机建站网站,在哪下载免费的英文版网站模板,wordpress4.9.8中文版,网站个人建设论文地址#xff1a;https://arxiv.org/pdf/2305.18290 1. 背景与挑战
近年来#xff0c;大规模无监督语言模型#xff08;LM#xff09;在知识获取和推理能力方面取得了显著进展#xff0c;但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈https://arxiv.org/pdf/2305.18290 1. 背景与挑战
近年来大规模无监督语言模型LM在知识获取和推理能力方面取得了显著进展但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈RLHF**来引导模型行为但RLHF存在以下问题
复杂性高RLHF需要先训练一个奖励模型来反映人类偏好然后使用强化学习来微调语言模型使其在最大化奖励的同时不偏离原始模型太远。不稳定性RLHF训练过程复杂且容易不稳定需要大量超参数调优和采样。计算成本高RLHF涉及训练多个模型和在训练循环中采样消耗大量计算资源。
2. DPO一种更简单、更高效的方法
为了解决上述问题本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法直接从人类偏好数据中优化语言模型而无需显式的奖励建模或强化学习。
2.1 DPO 的核心思想
DPO 的核心思想是
将偏好学习问题转化为一个简单的二元分类问题DPO 通过最大化人类偏好的对数概率同时最小化不偏好的对数概率来直接优化语言模型。引入动态重要性权重为了防止模型退化DPO 引入了基于隐式奖励模型的动态重要性权重该权重根据模型对偏好的排序错误程度进行调整。
2.2 DPO 的工作原理 构建偏好数据集从参考模型通常是经过监督微调的语言模型中采样生成多个候选响应并使用人类偏好数据对它们进行标注生成偏好对 ( y w , y l ) (y_w, y_l) (yw,yl)其中 y w y_w yw 表示更受偏好的响应 y l y_l yl 表示较不受偏好的响应。 定义 DPO 损失函数 L D P O ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ log σ ( β log π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right] LDPO(πθ;πref)−E(x,yw,yl)∼D[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))] π θ \pi_{\theta} πθ待优化的语言模型。 π r e f \pi_{\mathrm{ref}} πref参考模型通常是初始的监督微调模型。 β \beta β控制 KL 散度的超参数用于平衡奖励最大化与模型偏离程度。 σ \sigma σ sigmoid 函数将输入映射到 (0,1) 之间。 该损失函数鼓励模型生成更受偏好的响应同时惩罚生成不受偏好的响应。 优化模型 DPO 通过梯度下降法优化上述损失函数更新模型参数 θ \theta θ。 梯度计算如下 ∇ θ L D P O ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ( ∇ θ log π ( y w ∣ x ) − ∇ θ log π ( y l ∣ x ) ) ] \nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right] ∇θLDPO(πθ;πref)−βE(x,yw,yl)∼D[σ(r^θ(x,yl)−r^θ(x,yw))(∇θlogπ(yw∣x)−∇θlogπ(yl∣x))] 其中 r ^ θ ( x , y ) β log π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}_{\theta}(x,y) \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)} r^θ(x,y)βlogπref(y∣x)πθ(y∣x) 表示隐式奖励模型。 当隐式奖励模型对偏好排序错误时权重 σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) \sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big) σ(r^θ(x,yl)−r^θ(x,yw)) 更大这意味着模型会更多地关注那些排序错误的样本从而更有效地纠正错误。梯度更新方向增加偏好响应的对数概率同时减少不偏好响应的对数概率。
3. DPO 的优势
无需显式奖励建模DPO 直接从偏好数据中学习无需训练单独的奖励模型简化了训练流程。无需强化学习DPO 使用简单的二元交叉熵损失进行优化避免了强化学习带来的复杂性和不稳定性。计算效率高DPO 训练过程更高效消耗的计算资源更少。性能优越实验表明DPO 在控制生成文本的情感、摘要生成和对话生成等任务上性能优于或至少与现有的 RLHF 方法相当。
4. 实验结果
4.1 情感生成任务
在控制情感生成任务中DPO 在奖励-KL 散度边界上表现优异能够在保持低 KL 散度的同时实现更高的奖励优于 PPO 等方法。 4.2 摘要生成任务
在 TL;DR 摘要生成任务中DPO 的胜率与参考摘要相比达到 61%高于 PPO 的 57%。 此外DPO 对采样温度的鲁棒性更强而 PPO 的性能在高温下会下降。 4.3 对话生成任务
在 Anthropic HH 对话数据集上DPO 是唯一一种在计算效率高的前提下能够超越首选完成度的方法并且其性能与计算成本更高的 Best of 128 基线相当。
4.4 泛化能力
在将 PPO 和 DPO 策略应用于不同分布CNN/DailyMail 新闻文章时DPO 仍然优于 PPO表明 DPO 策略具有较好的泛化能力。
4.5 GPT-4 评估与人类评估的一致性
为了验证 GPT-4 评估的可靠性本文进行了人类研究发现 GPT-4 的判断与人类判断的一致性较高表明 GPT-4 是人类评估的合理代理。
5. 讨论与未来方向
DPO 策略的泛化能力DPO 策略在不同分布上的表现如何与从显式奖励函数中学习相比如何奖励过度优化问题DPO 中是否存在奖励过度优化问题图 3 中性能的轻微下降是否是其表现DPO 的可扩展性DPO 能否扩展到更大规模的模型GPT-4 评估的改进如何更好地从自动化系统中获取高质量的判断DPO 的其他应用DPO 的应用范围可以扩展到其他模态的生成模型训练。
6. 总结
DPO 是一种无需强化学习的语言模型偏好优化方法具有以下优势
简化训练流程无需显式奖励建模和强化学习。计算效率高训练过程更高效消耗资源更少。性能优越在多个任务上表现优于或至少与现有的 RLHF 方法相当。
DPO 为训练更强大的、对齐的语言模型提供了一种更简单、更高效的方法。