当前位置: 首页 > news >正文

新手怎样做网站动漫视频网站开发

新手怎样做网站,动漫视频网站开发,网站建设基本功能,小米路由 做网站SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking 摘要1 引言2 相关工作3 方法3.1 SparTerm3.2 SPLADE#xff1a;稀疏词汇和扩展模型 4 实验5 结论 发布时间#xff08;2021#xff09; 标题#xff1a;稀疏词汇 扩展模型 摘要 稀疏的优点#xf… SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking 摘要1 引言2 相关工作3 方法3.1 SparTerm3.2 SPLADE稀疏词汇和扩展模型 4 实验5 结论 发布时间2021 标题稀疏词汇 扩展模型 摘要 稀疏的优点 1术语精确匹配 2倒排索引效率 两部分 1、显式稀疏正则化explicit sparsity regularization 2、术语权重的对数饱和效应explicit sparsity regularization 在神经信息检索中正在进行的研究旨在改进排名管道中的第一个检索器。学习密集嵌入以使用有效的近似最近邻方法进行检索已被证明效果很好。同时人们对学习文档和查询的稀疏表示的兴趣日益浓厚这些表示可以继承词袋模型的理想属性例如术语的精确匹配和倒排索引的效率。在这项工作中我们提出了一种新的第一阶段排名器该排名器基于显式稀疏正则化和对术语权重的对数饱和效应从而产生高度稀疏的表示和与最先进的密集和稀疏方法相比具有竞争力的结果。我们的方法很简单在一个阶段进行端到端训练。我们还通过控制稀疏正则化的贡献来探索有效性和效率之间的权衡。 1 引言 BERT [7] 等大型预训练语言模型的发布震撼了自然语言处理和信息检索领域。这些模型表现出通过简单微调就能适应各种任务的强大能力。2019 年初Nogueira 和 Cho [17] 在 MS MARCO 段落重排序任务中取得了领先优势为基于 LM 的神经排序模型铺平了道路。由于严格的效率要求这些模型最初被用作两阶段排序流程中的重排序器其中第一阶段检索或候选生成是使用依赖于倒排索引的词袋模型例如 BM25进行的。 尽管 BOW 模型仍然是强大的基线 [27]但它们受到长期存在的词汇不匹配问题的困扰即相关文档可能不包含查询中出现的术语。因此有人尝试用学习的神经排序器替代标准 BOW 方法。 设计这样的模型在效率和可扩展性方面带来了一些挑战因此需要一种可以离线完成大部分计算并且在线推理速度快的方法。使用近似最近邻搜索的密集检索已显示出令人印象深刻的结果 [8, 15, 26]但由于无法明确模拟术语匹配因此仍然与 BOW 模型相结合。因此最近人们对学习查询和文档的稀疏表示的兴趣日益浓厚 [1, 4, 19, 28, 29]。 通过这样做模型可以继承 BOW 模型的理想属性例如可能潜在的术语的精确匹配、倒排索引的效率和可解释性。此外通过对隐式或显式潜在的、语境化的扩展机制进行建模类似于 IR 中的标准扩展模型这些模型可以减少词汇不匹配。 本文的贡献有三点1我们在 SparTerm [1] 的基础上进行了改进并表明对超参数进行轻微调整可以带来远超原始论文中报告结果的改进2我们提出了基于对数激活和稀疏正则化的 SParse 词汇和数据扩展 (SPLADE) 模型。SPLADE 可执行有效的文档扩展 [1, 16]与 ANCE [26] 等密集模型的复杂训练流程相比其结果具有竞争力3最后我们展示了如何控制稀疏正则化来影响效率就浮点运算次数而言和有效性之间的权衡。 2 相关工作 基于 BERT Siamese 模型 [22] 的密集检索已成为问答和 IR 中候选生成的标准方法 [8, 10, 12, 15, 25]。虽然这些模型的主干保持不变但最近的研究强调了训练策略的关键方面以获得最先进的结果从改进的负采样 [8, 25] 到蒸馏 [11, 15]。 ColBERT [13] 更进一步推迟的 token 级交互允许有效地将模型应用于第一阶段检索受益于建模细粒度交互的有效性但代价是存储每个子术语的嵌入 - 引发了人们对该方法对于大型集合的实际可扩展性的担忧。据我们所知很少有研究讨论使用近似最近邻 (ANN) 搜索对 ​​IR 指标的影响 [2, 23]。由于 MS MARCO 集合的规模适中结果通常通过精确的强力搜索来报告因此无法表明有效计算成本 密集索引的替代方案是基于术语的索引。在标准 BOW 模型的基础上Zamani 等人首次引入了 SNRM [28]该模型通过对表示进行 ℓ1 正则化将文档和查询嵌入到稀疏的高维潜在空间中。然而SNRM 的有效性仍然有限其效率也受到了质疑 [20]。最近有人尝试将知识从预训练的 LM 转移到稀疏方法。 基于 BERTDeepCT [4–6] 专注于在完整词汇空间中学习语境化术语权重——类似于 BOW 术语权重。然而由于与文档相关的词汇保持不变这种方法无法解决词汇不匹配的问题正如使用查询扩展进行检索所承认的那样 [4]。这个问题的第一个解决方案是使用生成方法如 doc2query [19] 和 docTTTTTquery [18]扩展文档以预测文档的扩展词。 文档扩展会向文档中添加新术语从而解决词汇不匹配问题并重复现有术语通过提升重要术语来隐式地重新加权。然而这些方法受到训练方式预测查询的限制这种方式本质上是间接的限制了它们的进展。最近的研究如 [1, 16, 29]选择了解决这个问题的第二种方法即估计文档每个术语所隐含的词汇表每个术语的重要性即计算文档或查询标记与词汇表中所有标记之间的交互矩阵。 接下来是一个聚合机制对于 SparTerm [1] 大致是 sum对于 EPIC [16] 和 SPARTA [29] 是 max它允许计算词汇表每个术语、完整文档或查询的重要性权重。然而EPIC 和 SPARTA文档表示在构造上不够稀疏——除非诉诸 top- 池化——与 SparTerm 相反因此可以实现快速检索。此外后者不包括像 SNRM显式稀疏正则化这会阻碍其性能。我们的 SPLADE 模型依赖于这种正则化以及其他关键变化从而提高了此类模型的效率和有效性。 3 方法 SparTerm 1对于词汇表中的每个词的权重都与query/doc进行运算 2通过门控获得稀疏向量门控有两种方式   a手动设置参数   b参数可学习 在本节中我们首先详细描述 SparTerm 模型 [1]然后介绍我们的模型 SPLADE。 3.1 SparTerm SparTerm 根据 Masked Language Model (MLM) 层的 logits 预测 BERT WordPiece 词汇表 (| | 30522) 中的术语重要性。更准确地说让我们考虑一个输入查询或文档序列WordPiece 标记化之后 (1, 2, …, )以及其对应的 BERT 嵌入 (ℎ1, ℎ2, …, ℎ )。 我们考虑标记 (词汇表) 对于标记 (输入序列) 的重要性 其中 是后面描述的二进制掩码门控。上面的等式可以看作是查询/文档扩展的一种形式如 [1, 16] 中所示因为对于词汇表的每个标记模型都会预测一个新的权重 。SparTerm [1] 引入了两种稀疏化方案可以关闭查询和文档表示中的大量维度从而可以有效地从倒排索引中检索 仅词汇是 BOW 掩蔽即如果标记 出现在 中则 1否则为 0 损失函数对比损失 局限性。 1SparTerm 扩展感知门控有些复杂 2并且模型无法进行端到端训练门控机制是事先学习的并在使用 L 微调匹配模型时进行固定 因此阻止模型学习排名任务的最佳稀疏化策略。此外词汇和扩展感知两种策略的表现几乎一样好这让人对扩展的实际好处产生质疑。 3.2 SPLADE稀疏词汇和扩展模型 下面我们建议对 SparTerm 模型进行细微但必要的改动以大幅提高其性能。 模型。我们对公式 2 中的重要性估计进行了微小的改动引入了对数饱和效应这可以防止某些项占主导地位并自然地确保表示中的稀疏性 虽然直观地看使用对数饱和可以防止某些项占主导地位——与 IR 和 log(tf) 模型中的公理方法相似 [9]——但隐含的稀疏性乍一看可能令人惊讶但根据我们的实验它获得了更好的实验结果并且已经允许在没有任何正则化的情况下获得稀疏解。 排名损失。给定一个批次中的查询 、一个正文档 、一个硬负文档 − 例如来自 BM25 采样以及批次中的一组负文档来自其他查询的正文档{ − , }我们考虑来自 [8] 的排名损失它可以解释为最大化文档 在文档 、− 和 { − , } 中相关的概率 4 实验 我们在完整排名设置下使用 MS MARCO 段落排名数据集 1 训练并评估了我们的模型。该数据集包含约 880 万段段落以及数十万个带有浅层注释的训练查询平均每个查询约 1.1 个相关段落。开发集包含 6980 个带有相似标签的查询而 TREC DL 2019 评估集为 43 个查询提供了来自人工评估员的细粒度注释 [3]。 5 结论 最近基于 BERT 的密集检索已证明其在第一阶段检索中的优势从而对传统稀疏模型的竞争力提出了质疑。在这项工作中我们提出了 SPLADE这是一种重新审视查询/文档扩展的稀疏模型。我们的方法依赖于批内负样本、对数激活和 FLOPS 正则化来学习有效且高效的稀疏表示。 SPLADE 是初始检索的一个有吸引力的候选者它可以与最新的最先进的密集检索模型相媲美其训练过程简单明了其稀疏性/FLOPS 可以通过正则化明确控制并且可以对倒排索引进行操作。 由于其简单性SPLADE 为进一步改进这一研究领域奠定了坚实的基础。
http://www.w-s-a.com/news/812391/

相关文章:

  • 网站搭建中企动力第一返利的网站怎么做
  • 在哪网站可以做农信社模拟试卷优衣库网站建设的目的
  • 杭州网站建设ttmwl网络平台推广公司
  • 工作室网站技能培训班
  • 东丰网站建设万盛网站制作
  • 安徽黄山网站建设wordpress 公众号 获取密码
  • 自己电脑做网站模板腾讯网站建设分析
  • 如何增加网站反链虚拟主机 2个网站
  • 手机网站调用分享wordpress.org移除
  • 工业和信息化部网站备案系统查询市场调研表模板
  • 网站流量转化线下推广活动有哪些
  • 030159网站建设与维护宝安网站公司
  • 个人网站备案网站内容做gif表情包网站
  • 湖南省建设厅城乡建设网站怎么建立一个网站网址
  • 图书馆网站建设的规章制度免费个人主页注册
  • 表格网站源码wordpress更换网站域名
  • 芜湖做网站多少钱做公司的网站的需求有哪些
  • 玉溪网站建设制作凌风wordpress百度云
  • 专业建网站价格门户网站建设 请示
  • 安徽省省博物馆网站建设佛山公司网站设计
  • 温州专业营销网站公司网络建设规划
  • 做模型常说的d站是什么网站wordpress 繁體
  • 给网站做h5缓存机制获取小程序api
  • 网站开发文档东莞市建设网站首页
  • 公共空间设计网站企业门户网站建设教程
  • 网站建设公司 深圳镇江建设质量监督站网站
  • 网站底部版权怎么做软广告经典案例
  • 网站收录突然全部没有了东莞网站建设公司电话
  • 境外企业网站推广免费ppt元素
  • 2018网站建设行业广东网站seo