当前位置: 首页 > news >正文

网站icp没有备案怎么检查网站备案通过什么可以备案

网站icp没有备案怎么检查,网站备案通过什么可以备案,百安居装修口碑怎么样,手机网站菜单文章目录 Tokenizer分词1.单词分词法2.单字符分词法3.子词分词法BPE(字节对编码#xff0c;Byte Pair Encoding)WordPieceUnigram Language Model(ULM) embedding的本质推理时的一些指标参考链接 Tokenizer 在使用模型前#xff0c;都需要将sequence过一遍Tokenizer#xf… 文章目录 Tokenizer分词1.单词分词法2.单字符分词法3.子词分词法BPE(字节对编码Byte Pair Encoding)WordPieceUnigram Language Model(ULM) embedding的本质推理时的一些指标参考链接 Tokenizer 在使用模型前都需要将sequence过一遍Tokenizer进去的是word序列(句子级)出来的是number序列。事实上HuggingFace的tokenizer总体上做了三件事情 分词。将字符串分为一些sub-word token string。再将token string映射到ID并保留来回映射的mapping。从string映射到ID为tokenizer encode过程从ID映射回token string 为tokenizer decode过程。映射方法有很多如BERT用的是WordPieceGPT-2和RoERTa用的是BPE。扩展词汇表。部分tokenizer会用一种统一的方法将训练语料中出现的但是词汇表中本来没有的token加入词汇表。识别并处理特殊token。特殊token包括[MASK]等。tokenzier会将它们加入词汇表中并且保证它们在模型中不被切成sub-word而是完整保留。 分词 从本质来说文本数据整体上先是文档集合然后是每一篇文档然后是每一个段落然后是每一个句子然后是每一个短语然后是每一个词然后是每一个子词最后是每一个字符。 不同的分词粒度会导致分词的结果不同当然也就影响了网络最终的输出结果。下面我们一一介绍。 1.单词分词法 最直观的分词是单词级分词法。单词分词法将一个word作为最小单元也就是根据空格或者标点分词。 例如Today is Sunday.使用word-base来进行分词会变成[Today,is,Sunday,.]。这种分词方法简单容易理解每个word都分配一个ID则所需要的Vocabulary根据语料大小而不同而且这种分词方式会将两个本身意思一致的词分成两个毫不相同的ID例如catcats。 2.单字符分词法 最细粒度的分词方法是单字符分词法(character-base)。它会穷举所有出现的字符所以是最完整的。在上面的例子中单字符分词法会生成[T,o,d,a,y,...,a,y,.]。 这种分词方式会导致Vocabulary相对小的多但分词后的每个字符是毫无意义的而且输出长度变长不少只有组装后才有意义。这种分词在模型的初始character embedding是毫无意义的。英文中尤为明显但是中文却是较为合理中文中用此种方式较多。 3.子词分词法 这是一种最常用的介于以上两种方法之间的分词方法我们称为子词分词法。 子词分词法会把上面的句子分成最小可分的子词[To,day,is,S,un,day,.]。子词分词法有很多种取得最小可分子词的方法例如BPEWordPieceSentencePieceUnigram等等。 BPE(字节对编码Byte Pair Encoding) 这是目前应用最多的分词方法GPT以及Llama系列都在使用这种分词方法。具体过程请参考这篇博客。 完成了上述的BPE训练过程我们就会得到一个词表(vocabulary)但是如何对输入语句进行编码(也就是BPE分词)呢 将词表按照其中token的长度从长到短进行排列 例如排序好之后的词表为 [“errrr/w”, “tain/w”, “moun”, “est/w”, “high”, “the/w”, “a/w”]对输入语句word-level的分词结果进行转化例如输入语句为 [“the/w”, “highest/w”, “mountain/w”]则转化为 the/w - [the/w] highest/w - [high, est/w] mountain/w - [moun, tain/w]注在编码过程结束后如果输入语句中仍然有子字符串没被替但是词表中的所有token都已经迭代完毕则将剩余的子词替换为特殊的token如 unk 。原则上 unk 这个token出现的越少越好我们也往往用 unk 的数量来评价一个tokenizer的好坏程度这个token出现的越少tokenizer的效果往往越好。 那么如何对网络的输出进行解码呢将所有的tokens拼在一起即可例如 # 网络输出 [the/w, high, est/w, moun, tain/w]# 解码序列 the/w highest/w mountain/w BPE是一种贪婪算法因为它一直在搜索知道遇到终止条件才会停止。 WordPiece WordPiece是BERT使用的分词方法可以看作是BPE的变种。两者很重要的区别是如何选择两个子词进行合并WordPiece选择能够提升语言模型概率最大的相邻子词构造词表但是BPE选择频数最高的相邻子词合并。大致的数学原理请参考这篇博客。 Unigram Language Model(ULM) ULM与上面的两种分词方法相比不同之处在于BPE和WordPiece算法的词表都是从小到大变化属于增量法而ULM则是减量法即先初始化一个大词表根据评估准则不断丢弃词汇直到满足限定条件。 embedding的本质 我们知道tokenization后就要进行embedding它的表象是将one-hot的高维向量转为更密集的低维向量的过程数学上就是对one-hot向量乘以一个矩阵。参考这篇博客在其中说明了embedding矩阵的本质是什么。在其中指出Embedding矩阵的本质是一个查找表由于输入向量是one-hot的embedding矩阵中有且仅有一行被激活。 博客中作者给出的图如下所示 对于第一个单词Ione-hot编码为[0,0,1,0,0]将其与embedding矩阵相乘相当于去除embedding矩阵的第3行(index为2)其他的同理。每个单词会定位这个表中的每一行而这一行就是这个单词学习到的在**嵌入空间(低维密集空间)**的语义。 推理时的一些指标 First Token Latency(首字延迟)指的是当一批用户进入推理系统之后用户完成prefill阶段(有关prefill的内容参考这篇博客)的过程需要花费多长时间也称为首个词元生成时间(Time To First Token简称TTFT)。这也是系统生成第一个字符所需要的响应时间希望用户在系统上输入问题后得到回答的时间小于2~3秒。Throughput(吞吐量)当系统的负载达到最大的时候单位时间内能够执行多少个Decode即生成多少个字符。单个输出词元的生成时间(Time Per Output Token简称TOPT)为每个用户生成一个输出词元所需要的时间。时延系统为用户生成完整相应的总时间。整体 相应时延可使用下面的计算方式时延TTFT TPOT*待生成的词元数。 参考链接 https://zhuanlan.zhihu.com/p/360290118https://martinlwx.github.io/zh-cn/the-bpe-tokenizer/https://zhuanlan.zhihu.com/p/631463712https://zhuanlan.zhihu.com/p/198964217https://www.zhihu.com/question/595001160/answer/3401487634https://zhuanlan.zhihu.com/p/663282469
http://www.w-s-a.com/news/236268/

相关文章:

  • 学做美食的视频网站企业网站备案密码怎么找回
  • 销售产品做单页还是网站seo有哪些作用
  • 网站视觉规范南宁网站优化推广
  • 公司起名打分最准的免费网站学设计的学校
  • 用cn作网站行么WordPress网站打不开nginx
  • 顺德龙江网站建设百货商城自助下单网站
  • 门户网站采用较多的模式是wordpress自动搜索缩略图
  • 深圳设计功能网站做网站推广怎么做
  • 海口专业网站建设地址wordpress站点标题是什么
  • 青岛做网站那家好网页素材网
  • 宁夏银川做网站的公司网络营销有哪些推广方法
  • 免费域名网站哪个最好东莞企业网站排名
  • dz做网站网址模版
  • 做外贸网站平台中华室内设计师网
  • 三大网络架构seo是啥职业
  • 一个域名可以做中英文两个网站吗搜索引擎营销的6种方式
  • 可以做ppt的网站天津网站建设怎么样
  • 网站怎么做的qq邮件订阅浙江省住房和城乡建设厅网站查询
  • 主机屋网站在线做图片
  • 河南省城乡住房建设厅网站wordpress登陆密码
  • 漳州做网站的公司搭建网站多少时间
  • 网站开发实习计划模板微营销手机
  • 网站设计与制作是做什么工作免费封面设计在线制作生成
  • 网站开发的教学课程网站广告调词软件
  • 进下加强新闻宣传网站建设入门 做网站 书籍
  • 电商网站主题photolux wordpress
  • 周口专业做网站公司深圳市宝安区松岗街道邮政编码
  • 上海企业网站推广方法网络营销策划方案框架
  • 一流的常州网站建设机械加工网报价
  • 上海响应式网站建设公司seo课程总结