当前位置: 首页 > news >正文

做广告公司网站建设价格上海奉贤网站建设

做广告公司网站建设价格,上海奉贤网站建设,代理网址域名,重庆建网站推广DPO 核心思想#xff1a;直接使用偏好数据进行策略优化#xff0c;省去 reward 模型策略优化。 技术背景知识#xff1a; 首先给定prompt x#xff0c;生成两个答案 ( y 1 , y 2 ) Π S F T ( y ∣ x ) (y_1,y_2)~\Pi^{SFT}(y|x) (y1​,y2​) ΠSFT(y∣x) #xff0c;并通…DPO 核心思想直接使用偏好数据进行策略优化省去 reward 模型策略优化。 技术背景知识 首先给定prompt x生成两个答案 ( y 1 , y 2 ) Π S F T ( y ∣ x ) (y_1,y_2)~\Pi^{SFT}(y|x) (y1​,y2​) ΠSFT(y∣x) 并通过人工标注对比 y 1 , y 2 y_1,y_2 y1​,y2​ 获得偏好结果(preference) y w ≻ y l ∣ x y_w\succ y_l|x yw​≻yl​∣x其中 w w w和 l l l表示win和lose。 引入奖励模型 r r r , y 1 y 2 y_1 y_2 y1​y2​ 的概率可以表示为 p ( y 1 y 2 ) r ∗ ( x , y 1 ) r ∗ ( x , y 1 ) r ∗ ( x , y 2 ) p(y_1 y_2) \frac{r^*(x,y_1)}{r^*(x,y_1) r^*(x,y_2)} p(y1​y2​)r∗(x,y1​)r∗(x,y2​)r∗(x,y1​)​ 为使得奖励函数均为正数引入Bradley-Terry 模型。 Bradley-Terry p ∗ ( y w ≻ y l ∣ x ) e x p ( r ∗ ( x , y 1 ) ) e x p ( r ∗ ( x , y 1 ) ) e x p ( r ∗ ( x , y 2 ) ) p^{*}(y_w\succ y_l|x) \frac{exp(r^*(x,y_1))}{exp(r^*(x,y_1)) exp(r^*(x,y_2))} p∗(yw​≻yl​∣x)exp(r∗(x,y1​))exp(r∗(x,y2​))exp(r∗(x,y1​))​ 交叉熵 令 a x e x p ( r ∗ ( x , y 1 ) ) a_x exp(r^*(x,y_1)) ax​exp(r∗(x,y1​)), a y e x p ( r ∗ ( x , y 2 ) ) a_y exp(r^*(x,y_2)) ay​exp(r∗(x,y2​)) L o s s − E ( a x , a y ) ∼ D [ l n a x a x a y ] − E ( x , y w , y l ) ∼ D [ l n e x p ( r ∗ ( x , y w ) ) e x p ( r ∗ ( x , y w ) ) e x p ( r ∗ ( x , y l ) ) ] − E ( x , y w , y l ) ∼ D [ l n 1 1 e x p ( r ∗ ( x , y l ) − r ∗ ( x , y w ) ) ] − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) ] Loss -E_{(a_x,a_y)\sim D}[ln\frac{a_x}{a_xa_y}] \\ - E_{(x,y_w,y_l)\sim D}[ln\frac{exp(r^*(x,y_w))}{exp(r^*(x,y_w))exp(r^*(x,y_l))}] \\ - E_{(x,y_w,y_l)\sim D}[ln\frac{1}{1exp(r^*(x,y_l)-r^*(x,y_w))}] \\ - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l))] \\ Loss−E(ax​,ay​)∼D​[lnax​ay​ax​​]−E(x,yw​,yl​)∼D​[lnexp(r∗(x,yw​))exp(r∗(x,yl​))exp(r∗(x,yw​))​]−E(x,yw​,yl​)∼D​[ln1exp(r∗(x,yl​)−r∗(x,yw​))1​]−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))] KL 散度 K L ( P ∣ ∣ Q ) ∑ x ∈ X P ( X ) l o g ( P ( X ) Q ( X ) ) KL(P||Q) \sum_{x\in X}P(X)log(\frac{P(X)}{Q(X)}) KL(P∣∣Q)x∈X∑​P(X)log(Q(X)P(X)​) P ( x ) , Q ( x ) P(x),Q(x) P(x),Q(x) 分别是数据真实分布和模型预测分布。 DPO 目标函数:获取更多的奖励并尽可能保证与基准模型一致。 m a x π E x ∈ X , y ∈ π [ r ( x , y ) ] − β ⋅ D K L [ π ( y ∣ x ) ∣ ∣ π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ r ( x , y ) ] − E x ∈ X , y ∈ π [ β ⋅ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ r ( x , y ) − β ⋅ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) − 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) − l o g e x p ( 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) − l o g Z ( x ) ] \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y)] - \beta·\mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y)] - E_{x\in X, y \in \pi}[\beta·log \frac{\pi(y|x)}{\pi_{ref}(y|x)}] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y) - \beta·log \frac{\pi(y|x)}{\pi_{ref}(y|x)}] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)}- \frac{1}{\beta}r(x,y))] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)}- log \ \ exp(\frac{1}{\beta}r(x,y))] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} - log \ \ Z(x) ] \\ πmax​Ex∈X,y∈π​[r(x,y)]−β⋅DKL​[π(y∣x)∣∣πref​(y∣x)]πmax​Ex∈X,y∈π​[r(x,y)]−Ex∈X,y∈π​[β⋅logπref​(y∣x)π(y∣x)​]πmax​Ex∈X,y∈π​[r(x,y)−β⋅logπref​(y∣x)π(y∣x)​]πmax​Ex∈X,y∈π​[logπref​(y∣x)π(y∣x)​−β1​r(x,y))]πmin​Ex∈X,y∈π​[logπref​(y∣x)π(y∣x)​−log  exp(β1​r(x,y))]πmin​Ex∈X,y∈π​[logπref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​]πmin​Ex∈X,y∈π​[logZ(x)1​πref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​−log  Z(x)] 令 Z ( x ) Z(x) Z(x) 表示如下 Z ( x ) ∑ y π r e f ( y ∣ x ) e x p ( 1 β r ( x , y ) ) Z(x) \underset{y}{\sum} \pi_{ref}(y|x) exp(\frac{1}{\beta}r(x,y) ) Z(x)y∑​πref​(y∣x)exp(β1​r(x,y)) 令 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) ∑ y π r e f ( y ∣ x ) e x p ( 1 β r ( x , y ) ) π ∗ ( y ∣ x ) \frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y)) \frac{\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))}{\underset{y}{\sum} \pi_{ref}(y|x) exp(\frac{1}{\beta}r(x,y) )} \\ \pi^*(y|x) Z(x)1​πref​(y∣x)⋅exp(β1​r(x,y))y∑​πref​(y∣x)exp(β1​r(x,y))πref​(y∣x)⋅exp(β1​r(x,y))​π∗(y∣x) 接下来继续对dpo 目标函数进行化简 m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) − l o g Z ( x ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) − l o g Z ( x ) ] \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} - log \ \ Z(x) ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} - log \ \ Z(x) ] \\ πmin​Ex∈X,y∈π​[logZ(x)1​πref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​−log  Z(x)]πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​−log  Z(x)] 由于 Z ( x ) Z(x) Z(x) 表达式与 π \pi π 不相关优化可以直接省去。 m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) − l o g Z ( x ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) ] m i n π E x ∼ D [ D K L ( π ( y ∣ x ) ∣ ∣ π ∗ ( y ∣ x ) ) ] \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} - log \ \ Z(x) ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} ] \\ \underset{\pi}{min} E_{x \sim D}[\mathbb{D}_{KL}(\pi(y|x) || \pi^*(y|x))] \\ πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​−log  Z(x)]πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​]πmin​Ex∼D​[DKL​(π(y∣x)∣∣π∗(y∣x))] 当 目标函数最小化也就是 D K L \mathbb{D}_{KL} DKL​ 最小化所满足的条件为 π ( y ∣ x ) π ∗ ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) \pi(y|x) \pi^*(y|x) \frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y)) π(y∣x)π∗(y∣x)Z(x)1​πref​(y∣x)⋅exp(β1​r(x,y)) 反解奖励函数 r ( x , y ) r(x,y) r(x,y) r ( x , y ) β π ( y ∣ x ) π r e f ( y ∣ x ) β ⋅ l n Z ( x ) r(x,y) \beta \frac{\pi(y|x)}{\pi_{ref}(y|x)} \beta · ln \Z(x) r(x,y)βπref​(y∣x)π(y∣x)​β⋅lnZ(x) 求解奖励函数隐式表达后带入Bradley-Terry 交叉熵函数 L o s s − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) ] − E ( x , y w , y l ) ∼ D [ l n σ ( β l o g π ( y w ∣ x ) π r e f ( y w ∣ x ) − β l o g π ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] Loss - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l))] \\ - E_{(x,y_w,y_l)\sim D}[ln \sigma(\beta log\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)} - \beta log \frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)})] Loss−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))]−E(x,yw​,yl​)∼D​[lnσ(βlogπref​(yw​∣x)π(yw​∣x)​−βlogπref​(yl​∣x)π(yl​∣x)​)] 到此整个数学部分已推导完毕不得不说句牛逼plus。 梯度表征 将上述损失进行梯度求导 ∇ θ L o s s ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ β σ ( β l o g π ( y w ∣ x ) π r e f ( y w ∣ x ) − β l o g π ( y l ∣ x ) π r e f ( y l ∣ x ) ) [ ∇ θ l o g π ( y w ∣ x ) − ∇ θ l o g π ( y l ∣ x ) ] ] \nabla_\theta Loss(\pi_{\theta};\pi_{ref}) - E_{(x,y_w,y_l)\sim D}[\beta \sigma(\beta log\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)} - \beta log \frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)}) [\nabla_{\theta}log \pi(y_w|x) - \nabla_{\theta}log \pi(y_l|x) ]] ∇θ​Loss(πθ​;πref​)−E(x,yw​,yl​)∼D​[βσ(βlogπref​(yw​∣x)π(yw​∣x)​−βlogπref​(yl​∣x)π(yl​∣x)​)[∇θ​logπ(yw​∣x)−∇θ​logπ(yl​∣x)]] 再令 r ^ ( x , y ) β π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}(x,y) \beta \frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} r^(x,y)βπref​(y∣x)πθ​(y∣x)​ 最终形式 ∇ θ L o s s ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ ∗ ( x , y w ) − r ^ ∗ ( x , y l ) ) ⏟ h i g h e r w e i g h t w h e n r e w a r d e s t i m a t e i s w r o n g [ ∇ θ l o g π ( y w ∣ x ) ⏟ i n c r e a s e l i k e l i h o o d o f y w − ∇ θ l o g π ( y l ∣ x ) ⏟ d e c r e a s e l i k e l i h o o d o f y l ] ] \nabla_\theta Loss(\pi_{\theta};\pi_{ref}) -\beta E_{(x,y_w,y_l)\sim D}[\underbrace{\sigma(\hat{r}^*(x,y_w) -\hat{r}^*(x,y_l))}_{higher\ weight\ when\ reward\ estimate\ is\ wrong} [\underbrace{\nabla_{\theta}log \pi(y_w|x)}_{\ \ \ \ \ \ \ \ \ increase \ likelihood\ of\ y_w} - \underbrace{\nabla_{\theta}log \pi(y_l|x)}_{decrease \ likelihood \ of \ y_l} ]] ∇θ​Loss(πθ​;πref​)−βE(x,yw​,yl​)∼D​[higher weight when reward estimate is wrong σ(r^∗(x,yw​)−r^∗(x,yl​))​​[         increase likelihood of yw​ ∇θ​logπ(yw​∣x)​​−decrease likelihood of yl​ ∇θ​logπ(yl​∣x)​​]] 改进方法ODPO dpo缺陷主要是采用Bradley–Terry model只给出了一个response比另一个response好的概率而没有告诉我们好的程度。 ​ odpo 核心思想 把这个好的程度的差距信息引入到偏好的建模里应该能带来收益及在dpo损失里添加margin , 这相当于要求偏好回应的评估分数要比非偏好回应的评估分数大且要大offset值这么多。目的是加大对靠得比较近的数据对的惩罚力度。 L o s s o d p o − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) − δ r ] δ r α l o g ( r ( y w ) − r ( y l ) ) Loss^{odpo} - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l)) - \delta_r] \\ \delta_r \alpha \ log(r(y_w)- r(y_l)) Lossodpo−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))−δr​]δr​α log(r(yw​)−r(yl​)) 相似改进方法 IPO KTO 都是不需要奖励模型的
http://www.w-s-a.com/news/745273/

相关文章:

  • 湖南网站建设公司排名傲派电子商务网站建设总结
  • 网站建设求职要求互联网挣钱项目平台
  • 网站权重怎么做做黑彩网站能赚钱吗
  • 三台建设局网站网页设计购物网站建设
  • thinkphp大型网站开发市场调研公司招聘
  • 天宁区建设局网站七冶建设集团网站 江苏
  • 越南网站 后缀湘潭新思维网站
  • 环球旅行社网站建设规划书网钛cms做的网站
  • 软件资源网站wordpress不能识别语言
  • 东坑仿做网站西安私人网站
  • 公司想做个网站怎么办如何搭建视频网站
  • .net网站架设凯里网站建设哪家好
  • seo网站建站建站国外百元服务器
  • 家具网站开发设计论文企业网站里面的qq咨询怎么做
  • 网站视频提取软件app淘宝店购买网站
  • 站长之家域名解析做百度推广网站咱们做
  • 行业 网站 方案莱州网站建设公司电话
  • 丹东谁做微网站威海网络科技有限公司
  • 寻找网站建设_网站外包自助打印微信小程序免费制作平台
  • 台式机网站建设vk社交网站做婚介
  • 创建网站得花多少钱网站建设的技术路线
  • 图书馆网站建设汇报免费编程软件哪个好用
  • 手机搭建网站工具网站搜索引擎优化的基本内容
  • 网站快速排名二手交易网站开发技术路线
  • 官方网站开发公司施工企业会计王玉红课后答案
  • 网站建设能用手机制作吗网站建设所需物资
  • 阜阳做网站的公司阳江招聘网最新消息
  • 织梦可以做哪些类型型网站wordpress 融资
  • 建设银行手机银行官方网站下载安装腾讯企点账户中心
  • 品牌设计网站有哪些商务网站建设平台