当前位置: 首页 > news >正文

深圳最简单的网站建设网站建设运营合同书

深圳最简单的网站建设,网站建设运营合同书,阐述网络推广的主要方法,什么语言网站比较安全DPO 核心思想#xff1a;直接使用偏好数据进行策略优化#xff0c;省去 reward 模型策略优化。 技术背景知识#xff1a; 首先给定prompt x#xff0c;生成两个答案 ( y 1 , y 2 ) Π S F T ( y ∣ x ) (y_1,y_2)~\Pi^{SFT}(y|x) (y1​,y2​) ΠSFT(y∣x) #xff0c;并通…DPO 核心思想直接使用偏好数据进行策略优化省去 reward 模型策略优化。 技术背景知识 首先给定prompt x生成两个答案 ( y 1 , y 2 ) Π S F T ( y ∣ x ) (y_1,y_2)~\Pi^{SFT}(y|x) (y1​,y2​) ΠSFT(y∣x) 并通过人工标注对比 y 1 , y 2 y_1,y_2 y1​,y2​ 获得偏好结果(preference) y w ≻ y l ∣ x y_w\succ y_l|x yw​≻yl​∣x其中 w w w和 l l l表示win和lose。 引入奖励模型 r r r , y 1 y 2 y_1 y_2 y1​y2​ 的概率可以表示为 p ( y 1 y 2 ) r ∗ ( x , y 1 ) r ∗ ( x , y 1 ) r ∗ ( x , y 2 ) p(y_1 y_2) \frac{r^*(x,y_1)}{r^*(x,y_1) r^*(x,y_2)} p(y1​y2​)r∗(x,y1​)r∗(x,y2​)r∗(x,y1​)​ 为使得奖励函数均为正数引入Bradley-Terry 模型。 Bradley-Terry p ∗ ( y w ≻ y l ∣ x ) e x p ( r ∗ ( x , y 1 ) ) e x p ( r ∗ ( x , y 1 ) ) e x p ( r ∗ ( x , y 2 ) ) p^{*}(y_w\succ y_l|x) \frac{exp(r^*(x,y_1))}{exp(r^*(x,y_1)) exp(r^*(x,y_2))} p∗(yw​≻yl​∣x)exp(r∗(x,y1​))exp(r∗(x,y2​))exp(r∗(x,y1​))​ 交叉熵 令 a x e x p ( r ∗ ( x , y 1 ) ) a_x exp(r^*(x,y_1)) ax​exp(r∗(x,y1​)), a y e x p ( r ∗ ( x , y 2 ) ) a_y exp(r^*(x,y_2)) ay​exp(r∗(x,y2​)) L o s s − E ( a x , a y ) ∼ D [ l n a x a x a y ] − E ( x , y w , y l ) ∼ D [ l n e x p ( r ∗ ( x , y w ) ) e x p ( r ∗ ( x , y w ) ) e x p ( r ∗ ( x , y l ) ) ] − E ( x , y w , y l ) ∼ D [ l n 1 1 e x p ( r ∗ ( x , y l ) − r ∗ ( x , y w ) ) ] − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) ] Loss -E_{(a_x,a_y)\sim D}[ln\frac{a_x}{a_xa_y}] \\ - E_{(x,y_w,y_l)\sim D}[ln\frac{exp(r^*(x,y_w))}{exp(r^*(x,y_w))exp(r^*(x,y_l))}] \\ - E_{(x,y_w,y_l)\sim D}[ln\frac{1}{1exp(r^*(x,y_l)-r^*(x,y_w))}] \\ - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l))] \\ Loss−E(ax​,ay​)∼D​[lnax​ay​ax​​]−E(x,yw​,yl​)∼D​[lnexp(r∗(x,yw​))exp(r∗(x,yl​))exp(r∗(x,yw​))​]−E(x,yw​,yl​)∼D​[ln1exp(r∗(x,yl​)−r∗(x,yw​))1​]−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))] KL 散度 K L ( P ∣ ∣ Q ) ∑ x ∈ X P ( X ) l o g ( P ( X ) Q ( X ) ) KL(P||Q) \sum_{x\in X}P(X)log(\frac{P(X)}{Q(X)}) KL(P∣∣Q)x∈X∑​P(X)log(Q(X)P(X)​) P ( x ) , Q ( x ) P(x),Q(x) P(x),Q(x) 分别是数据真实分布和模型预测分布。 DPO 目标函数:获取更多的奖励并尽可能保证与基准模型一致。 m a x π E x ∈ X , y ∈ π [ r ( x , y ) ] − β ⋅ D K L [ π ( y ∣ x ) ∣ ∣ π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ r ( x , y ) ] − E x ∈ X , y ∈ π [ β ⋅ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ r ( x , y ) − β ⋅ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ] m a x π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) − 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) − l o g e x p ( 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) − l o g Z ( x ) ] \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y)] - \beta·\mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y)] - E_{x\in X, y \in \pi}[\beta·log \frac{\pi(y|x)}{\pi_{ref}(y|x)}] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[r(x,y) - \beta·log \frac{\pi(y|x)}{\pi_{ref}(y|x)}] \\ \underset{\pi}{max} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)}- \frac{1}{\beta}r(x,y))] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)}- log \ \ exp(\frac{1}{\beta}r(x,y))] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} - log \ \ Z(x) ] \\ πmax​Ex∈X,y∈π​[r(x,y)]−β⋅DKL​[π(y∣x)∣∣πref​(y∣x)]πmax​Ex∈X,y∈π​[r(x,y)]−Ex∈X,y∈π​[β⋅logπref​(y∣x)π(y∣x)​]πmax​Ex∈X,y∈π​[r(x,y)−β⋅logπref​(y∣x)π(y∣x)​]πmax​Ex∈X,y∈π​[logπref​(y∣x)π(y∣x)​−β1​r(x,y))]πmin​Ex∈X,y∈π​[logπref​(y∣x)π(y∣x)​−log  exp(β1​r(x,y))]πmin​Ex∈X,y∈π​[logπref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​]πmin​Ex∈X,y∈π​[logZ(x)1​πref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​−log  Z(x)] 令 Z ( x ) Z(x) Z(x) 表示如下 Z ( x ) ∑ y π r e f ( y ∣ x ) e x p ( 1 β r ( x , y ) ) Z(x) \underset{y}{\sum} \pi_{ref}(y|x) exp(\frac{1}{\beta}r(x,y) ) Z(x)y∑​πref​(y∣x)exp(β1​r(x,y)) 令 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) ∑ y π r e f ( y ∣ x ) e x p ( 1 β r ( x , y ) ) π ∗ ( y ∣ x ) \frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y)) \frac{\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))}{\underset{y}{\sum} \pi_{ref}(y|x) exp(\frac{1}{\beta}r(x,y) )} \\ \pi^*(y|x) Z(x)1​πref​(y∣x)⋅exp(β1​r(x,y))y∑​πref​(y∣x)exp(β1​r(x,y))πref​(y∣x)⋅exp(β1​r(x,y))​π∗(y∣x) 接下来继续对dpo 目标函数进行化简 m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) − l o g Z ( x ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) − l o g Z ( x ) ] \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y))} - log \ \ Z(x) ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} - log \ \ Z(x) ] \\ πmin​Ex∈X,y∈π​[logZ(x)1​πref​(y∣x)⋅exp(β1​r(x,y))π(y∣x)​−log  Z(x)]πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​−log  Z(x)] 由于 Z ( x ) Z(x) Z(x) 表达式与 π \pi π 不相关优化可以直接省去。 m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) − l o g Z ( x ) ] m i n π E x ∈ X , y ∈ π [ l o g π ( y ∣ x ) π ∗ ( y ∣ x ) ] m i n π E x ∼ D [ D K L ( π ( y ∣ x ) ∣ ∣ π ∗ ( y ∣ x ) ) ] \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} - log \ \ Z(x) ] \\ \underset{\pi}{min} E_{x\in X, y \in \pi}[log \frac{\pi(y|x)}{\pi^*(y|x)} ] \\ \underset{\pi}{min} E_{x \sim D}[\mathbb{D}_{KL}(\pi(y|x) || \pi^*(y|x))] \\ πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​−log  Z(x)]πmin​Ex∈X,y∈π​[logπ∗(y∣x)π(y∣x)​]πmin​Ex∼D​[DKL​(π(y∣x)∣∣π∗(y∣x))] 当 目标函数最小化也就是 D K L \mathbb{D}_{KL} DKL​ 最小化所满足的条件为 π ( y ∣ x ) π ∗ ( y ∣ x ) 1 Z ( x ) π r e f ( y ∣ x ) ⋅ e x p ( 1 β r ( x , y ) ) \pi(y|x) \pi^*(y|x) \frac{1}{Z(x)}\pi_{ref}(y|x)·exp(\frac{1}{\beta}r(x,y)) π(y∣x)π∗(y∣x)Z(x)1​πref​(y∣x)⋅exp(β1​r(x,y)) 反解奖励函数 r ( x , y ) r(x,y) r(x,y) r ( x , y ) β π ( y ∣ x ) π r e f ( y ∣ x ) β ⋅ l n Z ( x ) r(x,y) \beta \frac{\pi(y|x)}{\pi_{ref}(y|x)} \beta · ln \Z(x) r(x,y)βπref​(y∣x)π(y∣x)​β⋅lnZ(x) 求解奖励函数隐式表达后带入Bradley-Terry 交叉熵函数 L o s s − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) ] − E ( x , y w , y l ) ∼ D [ l n σ ( β l o g π ( y w ∣ x ) π r e f ( y w ∣ x ) − β l o g π ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] Loss - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l))] \\ - E_{(x,y_w,y_l)\sim D}[ln \sigma(\beta log\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)} - \beta log \frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)})] Loss−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))]−E(x,yw​,yl​)∼D​[lnσ(βlogπref​(yw​∣x)π(yw​∣x)​−βlogπref​(yl​∣x)π(yl​∣x)​)] 到此整个数学部分已推导完毕不得不说句牛逼plus。 梯度表征 将上述损失进行梯度求导 ∇ θ L o s s ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ β σ ( β l o g π ( y w ∣ x ) π r e f ( y w ∣ x ) − β l o g π ( y l ∣ x ) π r e f ( y l ∣ x ) ) [ ∇ θ l o g π ( y w ∣ x ) − ∇ θ l o g π ( y l ∣ x ) ] ] \nabla_\theta Loss(\pi_{\theta};\pi_{ref}) - E_{(x,y_w,y_l)\sim D}[\beta \sigma(\beta log\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)} - \beta log \frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)}) [\nabla_{\theta}log \pi(y_w|x) - \nabla_{\theta}log \pi(y_l|x) ]] ∇θ​Loss(πθ​;πref​)−E(x,yw​,yl​)∼D​[βσ(βlogπref​(yw​∣x)π(yw​∣x)​−βlogπref​(yl​∣x)π(yl​∣x)​)[∇θ​logπ(yw​∣x)−∇θ​logπ(yl​∣x)]] 再令 r ^ ( x , y ) β π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}(x,y) \beta \frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)} r^(x,y)βπref​(y∣x)πθ​(y∣x)​ 最终形式 ∇ θ L o s s ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ ∗ ( x , y w ) − r ^ ∗ ( x , y l ) ) ⏟ h i g h e r w e i g h t w h e n r e w a r d e s t i m a t e i s w r o n g [ ∇ θ l o g π ( y w ∣ x ) ⏟ i n c r e a s e l i k e l i h o o d o f y w − ∇ θ l o g π ( y l ∣ x ) ⏟ d e c r e a s e l i k e l i h o o d o f y l ] ] \nabla_\theta Loss(\pi_{\theta};\pi_{ref}) -\beta E_{(x,y_w,y_l)\sim D}[\underbrace{\sigma(\hat{r}^*(x,y_w) -\hat{r}^*(x,y_l))}_{higher\ weight\ when\ reward\ estimate\ is\ wrong} [\underbrace{\nabla_{\theta}log \pi(y_w|x)}_{\ \ \ \ \ \ \ \ \ increase \ likelihood\ of\ y_w} - \underbrace{\nabla_{\theta}log \pi(y_l|x)}_{decrease \ likelihood \ of \ y_l} ]] ∇θ​Loss(πθ​;πref​)−βE(x,yw​,yl​)∼D​[higher weight when reward estimate is wrong σ(r^∗(x,yw​)−r^∗(x,yl​))​​[         increase likelihood of yw​ ∇θ​logπ(yw​∣x)​​−decrease likelihood of yl​ ∇θ​logπ(yl​∣x)​​]] 改进方法ODPO dpo缺陷主要是采用Bradley–Terry model只给出了一个response比另一个response好的概率而没有告诉我们好的程度。 ​ odpo 核心思想 把这个好的程度的差距信息引入到偏好的建模里应该能带来收益及在dpo损失里添加margin , 这相当于要求偏好回应的评估分数要比非偏好回应的评估分数大且要大offset值这么多。目的是加大对靠得比较近的数据对的惩罚力度。 L o s s o d p o − E ( x , y w , y l ) ∼ D [ l n σ ( r ∗ ( x , y w ) − r ∗ ( x , y l ) ) − δ r ] δ r α l o g ( r ( y w ) − r ( y l ) ) Loss^{odpo} - E_{(x,y_w,y_l)\sim D}[ln \sigma(r^*(x,y_w) -r^*(x,y_l)) - \delta_r] \\ \delta_r \alpha \ log(r(y_w)- r(y_l)) Lossodpo−E(x,yw​,yl​)∼D​[lnσ(r∗(x,yw​)−r∗(x,yl​))−δr​]δr​α log(r(yw​)−r(yl​)) 相似改进方法 IPO KTO 都是不需要奖励模型的
http://www.w-s-a.com/news/785491/

相关文章:

  • 网站内容编辑wordpress cron原理
  • 户外商品网站制作建筑网络图片
  • 注册了网站怎么建设做网站是学什么专业
  • 济南建设网站哪里好网站色哦优化8888
  • 什么网站做简历最好外贸公司网站大全
  • 衡水网站托管企业二级网站怎么做
  • 丹阳网站建设公司旅游类网站开发开题报告范文
  • 地方门户网站建设苏州网站优化建设
  • 谁用fun域名做网站了网络营销的三种方式
  • 织梦网站上传天津网站建设电话咨询
  • 论坛网站搭建深圳网
  • 天津建立网站营销设计window7用jsp做的网站要什么工具
  • 英文网站wordpress所有图片
  • 我做的网站怎么打开很慢网络营销典型企业
  • 新增备案网站python3网站开发
  • 诊断网站seo现状的方法与通信工程专业做项目的网站
  • 南京 微网站 建站alexa排名查询统计
  • 天津网站建设企业系统wordpress已发布不显示不出来
  • 大连网站前端制作公司局域网视频网站建设
  • 张家界建设局网站电话wordpress网站怎么建
  • 淄博网站建设有实力装修培训机构哪家最好
  • 彩票网站建设seo优化师是什么
  • 怎么做英文网站网站建设基本费用
  • dede网站名称不能保存wordpress运费设置
  • 出口网站制作好一点的网站建设
  • 在小说网站做编辑怎么找韶关市建设局网站
  • 网站策划怎么做内容旅游型网站建设
  • 东莞百度网站推广ppt模板免费下载的网站
  • 网站建设项目管理基本要求网站空间到期影响
  • 做奖杯的企业网站谁有推荐的网址