当前位置: 首页 > news >正文

网站版权符号杭州网站推广排名

网站版权符号,杭州网站推广排名,wordpress 4.9.4 中文,wordpress 国内教育主题目录三模型架构BERTGPTELMO三者差异点三模型架构 BERT 优点 在11个NLP任务上取得SOAT成绩.利用了Transformer的并行化能力以及长语句捕捉语义依赖和结构依赖.BERT实现了双向Transformer并为后续的微调任务留出足够的空间. 缺点 BERT模型太大, 太慢.BERT模型中的中文模型是以… 目录三模型架构BERTGPTELMO三者差异点三模型架构 BERT 优点 在11个NLP任务上取得SOAT成绩.利用了Transformer的并行化能力以及长语句捕捉语义依赖和结构依赖.BERT实现了双向Transformer并为后续的微调任务留出足够的空间. 缺点 BERT模型太大, 太慢.BERT模型中的中文模型是以字为基本token单位的, 无法利用词向量, 无法识别生僻词.BERT模型中的MLM任务, [MASK]标记在训练阶段出现, 预测阶段不出现, 这种偏差会对模型有一定影响.BERT模型的MLM任务, 每个batch只有15%的token参与了训练, 造成大量文本数据的无用, 收敛速度慢, 需要的算力和算时都大大提高. 文本截断处理方式 第一种方式就是只保留前面510个token. 第二种方式就是只保留后面510个token. 第三种方式就是前后分别保留一部分token, 总数是510. BERT预训练模型所接收的最大sequence长度是512 bert 迁移学习 简单练习代码 步骤 微调脚本 # 使用python运行微调脚本 # --model_name_or_path: 选择具体的模型或者变体 # --task_name: 它将代表对应的任务类型, 如MRPC代表句子对二分类任务 # --do_train: 使用微调脚本进行训练 # --do_eval: 使用微调脚本进行验证 # --max_seq_length: 输入句子的最大长度, 超过则截断, 不足则补齐 # --learning_rate: 学习率 # --num_train_epochs: 训练轮数 # --output_dir $SAVE_DIR: 训练后的模型保存路径 # --overwrite_output_dir: 再次训练时将清空之前的保存路径内容重新写入# 该命令已在虚拟机执行再次执行会覆盖缓存的模型python run_glue.py \--model_name_or_path bert-base-chinese \--task_name sst2 \--do_train \--do_eval \--max_seq_length 128 \--learning_rate 2e-5 \--num_train_epochs 1.0 \--output_dir bert-base-chinese-sst2-finetuningimport torch # 0 找到自己预训练模型的路径 mymodelname /Users/lizhipeng/PycharmProjects/newProject/fasttext/transformers/examples/pytorch/text-classification/bert-base-chinese-sst2-finetuning print(mymodelname)# 1 本地加载预训练模型的tokenizer tokenizer AutoTokenizer.from_pretrained(mymodelname)# 2 本地加载 预训练模型 带分类模型头 model AutoModelForSequenceClassification.from_pretrained(mymodelname)text 早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好 index tokenizer.encode(text) tokens_tensor torch.tensor([index])# 使用评估模式 with torch.no_grad():# 使用模型预测获得结果result model(tokens_tensor)print(result[0])predicted_label torch.argmax(result[0]).item() print(预测标签为, predicted_label)text1 房间应该超出30平米,是HK同级酒店中少有的大;重装之后,设备也不错. index tokenizer.encode(text1) tokens_tensor torch.tensor([index])# 使用评估模式 with torch.no_grad():# 使用模型预测获得结果result model(tokens_tensor)print(result[0])predicted_label torch.argmax(result[0]).item() print(预测标签为, predicted_label) 输出: 输入文本为: 早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好 预测标签为: 0 输入文本为: 房间应该超出30平米,是HK同级酒店中少有的大;重装之后,设备也不错. 预测标签为: 1 GPT 优点 GPT使用了Transformer提取特征, 使得模型能力大幅提升. 缺点 GPT只使用了单向Decoder, 无法融合未来的信息. ELMO 优点 -ELMo根据上下文动态调整word embedding, 可以解决多义词的问题. 缺点 ELMo使用LSTM提取特征的能力弱于TransformerELMo使用向量拼接的方式融合上下文特征的能力弱于Transformer 三者差异点 关于特征提取器 ELMo采用两部分双层双向LSTM进行特征提取, 然后再进行特征拼接来融合语义信息.GPT和BERT采用Transformer进行特征提取.很多NLP任务表明Transformer的特征提取能力强于LSTM, 对于ELMo而言, 采用1层静态token embedding 2层LSTM, 提取特征的能力有限. 单/双向语言模型 三者之中, 只有GPT采用单向语言模型, 而ELMo和BERT都采用双向语言模型.ELMo虽然被认为采用了双向语言模型, 但实际上是左右两个单向语言模型分别提取特征, 然后进行特征拼接, 这种融合特征的能力比BERT一体化的融合特征方式弱.三者之中, 只有ELMo没有采用Transformer. GPT和BERT都源于Transformer架构, GPT的单向语言模型采用了经过修改后的Decoder模块, Decoder采用了look-ahead mask, 只能看到context before上文信息, 未来的信息都被mask掉了. 而BERT的双向语言模型采用了Encoder模块, Encoder只采用了padding mask, 可以同时看到context before上文信息, 以及context after下文信息. 心得模型已浅知内化成自己掌握的知识还需多学多看
http://www.w-s-a.com/news/255025/

相关文章:

  • 什邡建设局网站sem推广是什么意思
  • 西安分类信息网站网站敏感关键词
  • 黑彩网站怎么做建设网站费用分析
  • 网站关键词选取的步骤和方法小程序商城哪家好排行榜
  • 儿童产品网站建设网站建设优化排名推广
  • 做网站的硬件无锡招标网官方网站
  • 做推送好用的网站合肥网站推广培训
  • 网站开发团队简介贵阳双龙区建设局网站
  • 新乡做网站公司哪家好wordpress侧边栏文件
  • 小白建站怎么撤销网站备案
  • 哪个网站做调查问卷赚钱短视频制作神器
  • 上海企业响应式网站建设推荐汕头网络优化排名
  • 怎么建立公司网站平台怎么将网站做成公司官网
  • 培训学校网站怎样快速建设网站模板
  • 建设电子商务网站论文云服务器安装wordpress
  • 做展板好的网站学校的网站开发过程
  • 宁波搭建网站价格西部数码网站正在建设中是什么意思
  • 吉林省建设项目招标网站苏州网络推广定制
  • 网站域名所有权证明引流推广接单
  • 做网站百度百科孟州网站建设
  • 服务网站建设企业广州模板建站系统
  • 怎么做属于自己的免费网站浏览器游戏网址
  • 上海城乡住房建设厅网站西安网站推广慧创科技
  • 做策划网站推广怎么写简历互联网公司手机网站
  • 怎么做宣传网站网站建设采购项目合同书
  • 网站的空间和域名备案做网站要会写什么
  • wap 网站源码企业网站被转做非法用途
  • 下载网站模板怎么使用做物流网站的公司
  • 网站 商城 app 建设建设银行江苏省行网站
  • 广州网站开发建设西安广告公司联系方式