当前位置: 首页 > news >正文

百度如何做网站做推广适合哪些网站

百度如何做网站,做推广适合哪些网站,山西智能网站建设制作,修改wordpress的首页论文笔记-WWW2024-ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ClickPrompt: CTR模型是大模型适配CTR预测任务的强大提示生成器摘要1.引言2.预备知识2.1传统CTR预测2.2基于PLM的CTR预测 3.方法3.1概述3.2模态转换3.… 论文笔记-WWW2024-ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ClickPrompt: CTR模型是大模型适配CTR预测任务的强大提示生成器摘要1.引言2.预备知识2.1传统CTR预测2.2基于PLM的CTR预测 3.方法3.1概述3.2模态转换3.3Prompt生成3.4Prompt融合3.5学习策略3.5.1提示增强掩码语言建模3.5.2使用PLM进行微调3.5.3不使用PLM进行微调 4.实验4.1实验设置4.2性能试验4.3模型兼容性4.4消融实验4.4.1提示策略4.4.2协作和语义知识融合策略 4.5长尾分析 5.总结 ClickPrompt: CTR模型是大模型适配CTR预测任务的强大提示生成器 论文下载链接: ClickPrompt 代码: ClickPrompt 摘要 传统的CTR模型通过one-hot编码将多领域分类数据转换为ID特征存在语义信息丢失的问题。另一个研究方向将输入数据转换为文本句子尽管保留了语义信息但无法捕获协作信息而且推理开销大。 本文提出了一种新颖的模型无关框架ClickPrompt结合CTR模型生成与交互相关的软提示供PLMs使用。同时设计了一种提示增强的掩码语言建模预训练任务PA-MLM其中PLM根据上下文信息以及CTR模型生成的软提示恢复被掩码的标记。然后选择将CTR模型与PLM一起调优以获得更好的性能或者单独调优CTR模型而不使用PLM以提高推理效率。 1.引言 本文旨在捕捉语义知识和协作知识以实现准确的CTR预测同时解决推理效率问题。通过设计prompt增强的掩码语言模型PA-MLM模型首先掩码ID特征的文本然后PLM利用ID生成的软提示和文本上下文恢复被掩码的信息。这种双向信息流动允许ID的协作信息传递给PLM同时保持文本的语义信息回流至CTR模型。 如图1所示通过软提示基于ID的协作知识将通过前向传播传递给PLM而基于文本的语义知识将通过反向传播流回CTR模型。预训练后本文提出两种不同的微调策略用于CTR预测使用PLM微调和不使用PLM微调。 本文主要贡献 提出了一个新颖的框架ClickPrompt其中CTR模型充当PLM的软提示生成器。PA-MLM通过软提示对协作知识和语义知识之间的交互和显式对齐进行建模从而显著提高CTR性能。 ClickPrompt与模型无关并且与各种CTR模型和PLM兼容。此外通过单独对CTR模型进行微调ClickPrompt可以提高预测准确性而无需改变CTR模型结构或增加额外的推理成本。 2.预备知识 2.1传统CTR预测 大多数传统CTR模型的结构分为三层嵌入层、特征交互层和预测层。嵌入层将稀疏独热编码转化为低维嵌入向量特征交互层捕获高阶特征交互从而生成相应的特征表示预测层根据特征交互层的特征表示计算用户的点击概率。预测层之后CTR模型使用二元交叉熵损失进行训练。 2.2基于PLM的CTR预测 与传统模型不同基于PLM的CTR模型通过硬提示模版将输入转换为文本。根据任务类型和真实标签表述基于PLM的CTR模型可以分为两类。 第一类将CTR预测视为二进制文本分类任务其中真实标签仍然与传统设置相同为0或1。第二类将CTR预测视为序列到序列任务其中真实标签被转换为二进制关键词即是或否。这类方法利用编码器解码器或仅解码器的PLM来遵循指令并回答附加在文本输入后面的二进制问题例如用户会喜欢该项目吗。本文主要关注第一类。 3.方法 3.1概述 如图2所示ClickPrompt的模型架构设计主要分为三个阶段模态转换、提示生成和提示融合。首先模态转换层将输入数据 x i x_i xi​ 转换为独热ID特征 x i I D ​ x_i^{ID}​ xiID​​ 和文本特征 x i t e x t ​ x_i^{text}​ xitext​​。其次ID特征 x i I D ​ x_i^{ID}​ xiID​​被输入到CTR模型中随后经过提示生成层以产生独立的软提示向量。最后在提示融合阶段软提示作为PLM每个变换层的前缀隐藏状态使得协作知识和语义知识之间能够实现显式对齐。 关于学习策略ClickPrompt采用常见的预训练-微调方案。本文首先设计了一个提示增强的掩码语言建模任务PA-MLM用于预训练其中PLM需要根据文本上下文和由CTR模型生成的软提示来恢复被掩码的标记。预训练之后进行有监督的微调既可以与PLM一起也可以单独进行。前者实现了协作信息和语义信息之间的显式互动从而提升性能而后者则解决了推理效率问题。 3.2模态转换 将输入 x i x_i xi​ 转换为两种不同的模态ID特征 x i I D ​ x_i^{ID}​ xiID​​ 和文本特征 x i t e x t ​ x_i^{text}​ xitext​​ID特征使用one-hot编码获得 表格数据的复杂模板可能会误导模型使其无法掌握文本中的关键信息。因此本文采用“什么是什么”的硬提示模板 其中 f j n a m e ​ f_j^{name}​ fjname​​ 是第 j j j 个字段的字段名称 f i , j f_{i,j} fi,j​ 是第 i i i 个数据实例中第 j j j 个字段的特征值 [ ⋅ ] [ \cdot ] [⋅] 表示连接操作符用于将列表中的元素用空格“ ”连接起来。 3.3Prompt生成 通过CTR模型的嵌入和特征交互层FI获得特征表示 然后维护一组并行投影网络 { g l , k ( ⋅ ) } \{g_{l,k}(\cdot)\} {gl,k​(⋅)} 用于软提示生成 其中 p i , l , k p_{i,l,k} pi,l,k​ 是PLM第 l l l 层的第 k k k 个提示向量。 L L L 是PLM的层数 K K K 是每层的软提示数量。每个投影网络 g l , k ( ⋅ ) g_{l,k}(\cdot) gl,k​(⋅) 是一个多层感知机MLP用于维度一致性和空间转换。 3.4Prompt融合 如图2所示获得的软提示将作为PLM每个转换器层的前缀隐藏状态。具体来说文本特征 x i t e x t ​ x_i^{text}​ xitext​​ 被分词为 Z Z Z 个单词标记PLM 的第 l l l 层可以表示为 其中 [ h i , l , z ] z 1 Z ​ [h_{i,l,z}]_{z1}^{Z}​ [hi,l,z​]z1Z​​ 是第 l l l 层的标记隐藏状态。通过每一层的自注意力机制来自CTR模型的协作信号可以通过提示接口与文本侧的语义知识显式对齐和融合。 最后在经过 L L L 层传播后在PLM的输出状态上应用池化和预测层 输出维度以及激活和损失函数取决于采用的任务和学习策略。 3.5学习策略 如图2所示ClickPrompt采用常见的预训练-微调方案作为学习策略。具体而言将提示增强的掩码语言建模PA-MLM作为预训练任务通过软提示的链接交融协作知识和语义知识从而改善参数初始化。然后选择与PLM进行有监督的微调以获得更好的CTR性能或者仅微调CTR模型而不使用PLM以保持改进的预测准确性和推理效率。 3.5.1提示增强掩码语言建模 如图2所示对文本特征进行标记掩码处理以获得损坏的文本输入 x ^ i t e x t ​ \hat{x}_i^{text}​ x^itext​​同时保留原始的ID特征。然后PLM根据语言上下文以及从完整的ID特征生成的软提示来恢复被掩码的标记。 因此公式8中的池化和预测层被设计为语言模型的经典解码器模块然后是softmax函数和交叉熵损失。参考以往的工作本文对每个输入 x i t e x t ​ x_i^{text}​ xitext​​ 均匀采样15%的标记并以8:1:1的比例执行三种不同的操作即(1) [MASK] 替换(2) 随机单词替换(3) 保持不变。 为了完成对被掩码标记的填空任务PLM必须提取并整合嵌入在软提示中的相应“正确答案”从而在CTR模型和PLM之间实现对同一输入 x i x_i xi​ 的对齐。 3.5.2使用PLM进行微调 集成CTR模型和PLM的预测同时与软提示向量显式交互 其中 α α α 是一个可学习的参数用于平衡预测的权重 σ ( ⋅ ) σ(⋅) σ(⋅) 是sigmoid函数。通过这种方式来自两个模态的协作知识和语义知识在微调过程充分融合从而提升了性能。 3.5.3不使用PLM进行微调 为进一步解决推理效率问题可以仅微调CTR模型而不使用PLM。在PA-MLM预训练过程中通过反向传播将PLM中的语义知识注入到CTR模型中。因此这种语义感知的参数初始化将能够实现协作知识和语义知识之间的隐式交互从而提升CTR性能而无需更改CTR模型结构或增加额外的推理成本 对于这两种微调策略在估计点击概率时应用二元交叉熵损失。 4.实验 4.1实验设置 数据集MovieLens-1M、BookCrossing、Amazon-Toys 和 GoodReads 评估指标AUC和Log Loss 基线 传统的CTR模型FM、DNN、DeepFM、xDeepFM、PNN、DCN、AutoInt、FiGNN、FGCNN和 DCNv2。 基于PLM的CTR模型CTR-BERT、P5、PTab和CTRL。 实现细节选择DCNv2作为CTR模型RoBERTa-base作为预训练语言模型。 4.2性能试验 结论 传统CTR模型的性能显著优于基于PLM的CTR模型除了CTRL。这表明特征交叉模式中嵌入的协作信息对CTR预测至关重要。 CTRL在所有基线模型中表现最佳。CTRL采用基于CLIP的框架并通过对比预训练将PLM中的语义知识提炼到CTR模型中。 ClickPrompt_with PLM在所有基线模型中实现了显著的性能提升验证了协作知识和语义知识之间的显式对齐和交互的有效性。 ClickPrompt_w/o PLM性能仅次于ClickPrompt_with PLM提高了预测准确性同时没有增加推理延迟。 4.3模型兼容性 为了研究模型兼容性本文在CTR模型和PLM方面的不同主干上应用了ClickPrompt框架。对于CTR模型选择DCNv2、AutoInt和DNN。对于PLM选择TinyBERT (14.5M)、RoBERTa-base(125M)和 RoBERTa-large(335M)。 结论 ClickPrompt在所有基础模型上相对于原始CTR模型实现了显著提升这验证了其在CTR模型和PLM之间的优越模型兼容性。 随着PLM模型规模的增加ClickPrompt对原始CTR模型的性能提升逐渐增加。因为较大的PLM拥有更广泛的开放世界知识有助于语义信号与协作信号之间的融合和对齐。 更大规模的PLM并不一定会导致CTR预测性能的成比例改善。因此考虑训练开销建议使用RoBERTa-base作为ClickPrompt的更合适和经济的选择。 4.4消融实验 本节主要分析提示策略以及协作与语义知识融合策略的影响。选择DCNv2、AutoInt和DNN作为基础CTR模型并选择RoBERTa-base作为PLM基础。 4.4.1提示策略 本文比较了图3所示的两种不同的提示策略结果如表3。 结论 逐层提示策略的表现优于不使用逐层提示的策略。如果提示向量仅放置在浅层输入层模型的协作知识可能在PLM的前向传播过程中被淹没从而导致与语义知识的不平衡交互最终造成性能下降。 4.4.2协作和语义知识融合策略 协作知识和语义知识之间的交互和对齐有两个关键技术点 (1)从模型架构的角度来看分层软提示是CTR模型和PLM之间显式交互的桥梁。 (2)从学习策略的角度来看PA-MLM预训练任务中PLM提取并合并嵌入提示向量中的有用协作信息从而产生细粒度的对齐。 三个变体 没有提示 没有预训练 两者都没有 结论 删除提示或预训练后性能下降。这表明协作知识和语义知识之间的显式交互和细粒度对齐可以更好地从两种输入模式中提取和融合信息从而提高点击率预测性能。 4.5长尾分析 根据用户和项目在训练集中出现的频率排序。频率排在后10%的被归类为长尾低频用户和项目。 结论 长尾低频用户或项目可能会导致传统的CTR 模型性能显著下降。 在长尾问题更严重的情况下例如用户和项目都是长尾的子集ClickPrompt 可以比主干 CTR 模型带来显着更大的改进。这证实了ClickPrompt在解决推荐的冷启动或长尾问题方面是有效的。 5.总结 本文提出了一种新颖的模型无关框架ClickPrompt其中CTR模型充当PLM的软提示生成器。设计了一种预训练-微调方案以实现来自独热ID模态的协作知识与来自文本模态的语义知识之间的显式互动和对齐从而显著提高CTR预测性能。此外提供了另一种轻量级的微调策略仅训练CTR模型以用于下游任务而不使用PLM从而有效解决推理效率问题。对四个真实世界数据集的广泛实验验证了ClickPrompt相较于基线模型的优越预测性能和模型兼容性。
http://www.w-s-a.com/news/699076/

相关文章:

  • 电商网站前端架构设计上海市建设工程安全生产协会网站
  • 东莞企业免费模版网站建设一般网站维护要多久
  • 著名建筑设计网站常州制作网站价格
  • 食品营销型网站广东省广州市白云区
  • 如何做网站哪个站推广描述对于营销型网站建设很重要飘红效果更佳
  • 济阳做网站公司99企业邮箱888
  • 国贸做网站的公司能接做网站的活的网站
  • 淮南建设厅网站上杭县建设局网站
  • 东莞做网站公司首选!西安注册公司费用
  • 做网站包括什么卖水果网站模板
  • 扬州网站建设外包wordpress 文章评分
  • 网站建设网站多少钱公司名字大全列表
  • 设计企业网站内容wordpress 投稿者 权限
  • seo网站推广免费价格低的成语
  • 做网站建设销售辛苦吗专题页是什么
  • 做网站的软件名字全拼wordpress可以上传文件吗
  • 建品牌网站公司关于asp_sql网站开发的书籍
  • 建网站公司营销型网站建设wordpress自定义登录页
  • 泉州市住房和城乡建设局网站淘宝店网站怎么做
  • 企业网站建设费未付款怎样挂账长春网站制作专业
  • 深圳找网站建设邹城市建设局网站
  • 长春火车站停运了吗网站开发概要设计
  • 网站开发表格整体页面居中网站域名详解
  • 漕泾网站建设赢展网站建设
  • 医院网站建设的要求毕业了智慧团建密码忘了
  • 网站怎么建设在哪里接单坪山商城网站建设哪家便宜
  • 中山企业网站优化易语言wordpress发布
  • 宜昌网站推广自己怎么做彩票网站吗
  • 英文网站建设 招标网站建设中服务器搭建方式
  • 直播网站建设需要什么软件有哪些室内设计效果图怎么做