当前位置: 首页 > news >正文

龙岩网站制作公司手机写文章用wordpress

龙岩网站制作公司,手机写文章用wordpress,wordpress能做cms系统,大连网站建设仟亿科技这是一个经典的文本分类问题#xff0c;使用google的预训练模型BERT中文版bert-base-chinese来做中文文本分类。可以先在Huggingface上下载预训练模型备用。https://huggingface.co/google-bert/bert-base-chinese/tree/main 我使用的训练环境是 pip install torch2.0.0; pi…这是一个经典的文本分类问题使用google的预训练模型BERT中文版bert-base-chinese来做中文文本分类。可以先在Huggingface上下载预训练模型备用。https://huggingface.co/google-bert/bert-base-chinese/tree/main 我使用的训练环境是 pip install torch2.0.0; pip install transformers4.30.2; pip install gensim4.3.3; pip install huggingface-hub0.15.1; pip install modelscope1.20.1; 一、准备训练数据 1.1 准备中文文本分类任务的训练数据 这里Demo数据如下 各银行信用卡挂失费迥异 北京银行收费最高 0 莫泰酒店流拍 大摩叫价或降至6亿美元 4 乌兹别克斯坦议会立法院主席获连任 6 德媒披露鲁能引援关键人物 是他力荐德甲亚洲强人 7 辉立证券给予广汽集团持有评级 2 图文-业余希望赛海南站第二轮 球场的菠萝蜜 7 陆毅鲍蕾近乎完美的爱情(组图)(2) 9 7000亿美元救市方案将成期市毒药 0 保诚启动210亿美元配股交易以融资收购AIG部门 2 分类class类别文件 finance realty stocks education science society politics sports game entertainment 1.2 数据读取和截断使满足BERT模型输入 读取训练数据对文本进行处理如截取过长的文本、补齐较短的文本加上起始标示、对文本进行编码、添加掩码、转为tensor等操作。 import os from config import parsers from transformers import BertTokenizer from torch.utils.data import Dataset, DataLoader import torchfrom transformers import AutoTokenizer, AutoModelForMaskedLMdef read_data(file):# 读取文件all_data open(file, r, encodingutf-8).read().split(\n)# 得到所有文本、所有标签、句子的最大长度texts, labels, max_length [], [], []for data in all_data:if data:text, label data.split(\t)max_length.append(len(text))texts.append(text)labels.append(label)# 根据不同的数据集返回不同的内容if os.path.split(file)[1] train.txt:max_len max(max_length)return texts, labels, max_lenreturn texts, labels,class MyDataset(Dataset):def __init__(self, texts, labels, max_length):self.all_text textsself.all_label labelsself.max_len max_lengthself.tokenizer BertTokenizer.from_pretrained(parsers().bert_pred) # self.tokenizer AutoTokenizer.from_pretrained(bert-base-chinese)def __getitem__(self, index):# 取出一条数据并截断长度text self.all_text[index][:self.max_len]label self.all_label[index]# 分词text_id self.tokenizer.tokenize(text)# 加上起始标志text_id [[CLS]] text_id# 编码token_id self.tokenizer.convert_tokens_to_ids(text_id)# 掩码 -》mask [1] * len(token_id) [0] * (self.max_len 2 - len(token_id))# 编码后 -》长度一致token_ids token_id [0] * (self.max_len 2 - len(token_id))# str -》 intlabel int(label)# 转化成tensortoken_ids torch.tensor(token_ids)mask torch.tensor(mask)label torch.tensor(label)return (token_ids, mask), labeldef __len__(self):# 得到文本的长度return len(self.all_text) 将文本处理后就可以使用torch.utils.data中自带的DataLoader模块来加载训练数据了。 二、微调BERT模型 我们是微调BERT模型需要获取BERT最后一个隐藏层的输出作为输入到下一个全连接层。 至于选择BERT模型的哪个输出作为linear层的输入可以通过实验尝试或者遵循常理。 pooler_output这是通过将最后一层的隐藏状态的第一个token通常是[CLS] token通过一个线性层和激活函数得到的输出常用于分类任务。 last_hidden_state这是模型所有层的最后一个隐藏状态的输出包含了整个序列的上下文信息适用于序列级别的任务。 简单调用下BERT模型打印出来最后一层看下 import torch import time import torch.nn as nn from transformers import BertTokenizer from transformers import BertModel from transformers import AutoTokenizer, AutoModelForMaskedLMdef process_text(text, bert_pred):tokenizer BertTokenizer.from_pretrained(bert_pred)token_id tokenizer.convert_tokens_to_ids([[CLS]] tokenizer.tokenize(text))mask [1] * len(token_id) [0] * (38 2 - len(token_id))token_ids token_id [0] * (38 2 - len(token_id))token_ids torch.tensor(token_ids).unsqueeze(0)mask torch.tensor(mask).unsqueeze(0)x torch.stack([token_ids, mask])return xdevice cpu bert BertModel.from_pretrained(./bert-base-chinese/) texts [沈腾和马丽的电影《独行月球》挺好看] for text in texts:x process_text(text, ./bert-base-chinese/)input_ids, attention_mask x[0].to(device), x[1].to(device)hidden_out bert(input_ids, attention_maskattention_mask,output_hidden_statesFalse) print(hidden_out) 输出结果 2.1 文本分类任务选择使用pooler_output作为线性层的输入。 import torch.nn as nn from transformers import BertModel from transformers import AutoTokenizer, AutoModelForMaskedLM from config import parsers import torchclass MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()self.args parsers()self.device cuda:0 if torch.cuda.is_available() else cpu self.bert BertModel.from_pretrained(self.args.bert_pred) # bert 模型进行微调for param in self.bert.parameters():param.requires_grad True# 一个全连接层self.linear nn.Linear(self.args.num_filters, self.args.class_num)def forward(self, x):input_ids, attention_mask x[0].to(self.device), x[1].to(self.device)hidden_out self.bert(input_ids, attention_maskattention_mask,output_hidden_statesFalse) # 是否输出所有encoder层的结果# shape (batch_size, hidden_size) pooler_output -- hidden_out[0]pred self.linear(hidden_out.pooler_output)# 返回预测结果return pred 2.2 优化器使用Adam、损失函数使用交叉熵损失函数 device cuda:0 if torch.cuda.is_available() else cpu model MyModel().to(device) opt AdamW(model.parameters(), lrargs.learn_rate) loss_fn nn.CrossEntropyLoss() 三、训练模型 3.1 参数配置 def parsers():parser argparse.ArgumentParser(descriptionBert model of argparse)parser.add_argument(tx_date,nargs?) #可选输入参数计算日期parser.add_argument(--train_file, typestr, defaultos.path.join(./data_all, train.txt))parser.add_argument(--dev_file, typestr, defaultos.path.join(./data_all, dev.txt))parser.add_argument(--test_file, typestr, defaultos.path.join(./data_all, test.txt))parser.add_argument(--classification, typestr, defaultos.path.join(./data_all, class.txt))parser.add_argument(--bert_pred, typestr, default./bert-base-chinese)parser.add_argument(--class_num, typeint, default12)parser.add_argument(--max_len, typeint, default38)parser.add_argument(--batch_size, typeint, default32)parser.add_argument(--epochs, typeint, default10)parser.add_argument(--learn_rate, typefloat, default1e-5)parser.add_argument(--num_filters, typeint, default768)parser.add_argument(--save_model_best, typestr, defaultos.path.join(model, all_best_model.pth))parser.add_argument(--save_model_last, typestr, defaultos.path.join(model, all_last_model.pth))args parser.parse_args()return args 3.2 模型训练 import torch from torch.utils.data import DataLoader from torch.optim import AdamW import torch.nn as nn from sklearn.metrics import accuracy_score import timeif __name__ __main__:start time.time()args parsers()device cuda:0 if torch.cuda.is_available() else cpuprint(device:, device)train_text, train_label, max_len read_data(args.train_file)dev_text, dev_label read_data(args.dev_file)args.max_len max_lentrain_dataset MyDataset(train_text, train_label, args.max_len)train_dataloader DataLoader(train_dataset, batch_sizeargs.batch_size, shuffleTrue)dev_dataset MyDataset(dev_text, dev_label, args.max_len)dev_dataloader DataLoader(dev_dataset, batch_sizeargs.batch_size, shuffleFalse)model MyModel().to(device)opt AdamW(model.parameters(), lrargs.learn_rate)loss_fn nn.CrossEntropyLoss()acc_max float(-inf)for epoch in range(args.epochs):loss_sum, count 0, 0model.train()for batch_index, (batch_text, batch_label) in enumerate(train_dataloader):batch_label batch_label.to(device)pred model(batch_text)loss loss_fn(pred, batch_label)opt.zero_grad()loss.backward()opt.step()loss_sum losscount 1# 打印内容if len(train_dataloader) - batch_index len(train_dataloader) % 1000 and count len(train_dataloader) % 1000:msg [{0}/{1:5d}]\tTrain_Loss:{2:.4f}print(msg.format(epoch 1, batch_index 1, loss_sum / count))loss_sum, count 0.0, 0if batch_index % 1000 999:msg [{0}/{1:5d}]\tTrain_Loss:{2:.4f}print(msg.format(epoch 1, batch_index 1, loss_sum / count))loss_sum, count 0.0, 0model.eval()all_pred, all_true [], []with torch.no_grad():for batch_text, batch_label in dev_dataloader:batch_label batch_label.to(device)pred model(batch_text)pred torch.argmax(pred, dim1).cpu().numpy().tolist()label batch_label.cpu().numpy().tolist()all_pred.extend(pred)all_true.extend(label)acc accuracy_score(all_pred, all_true)print(fdev acc:{acc:.4f})if acc acc_max:print(acc, acc_max)acc_max acctorch.save(model.state_dict(), args.save_model_best)print(f以保存最佳模型)torch.save(model.state_dict(), args.save_model_last)end time.time()print(f运行时间{(end-start)/60%60:.4f} min)模型保存为 -rw-rw-r--  1 gaoToby gaoToby 391M Dec 24 14:02 all_best_model.pth -rw-rw-r--  1 gaoToby gaoToby 391M Dec 24 14:02 all_last_model.pth 四、模型推理预测 准备预测文本文件加载模型进行文本的类别预测。 def text_class_name(pred):result torch.argmax(pred, dim1)print(torch.argmax(pred, dim1).cpu().numpy().tolist())result result.cpu().numpy().tolist()classification open(args.classification, r, encodingutf-8).read().split(\n)classification_dict dict(zip(range(len(classification)), classification))print(f文本{text}\t预测的类别为{classification_dict[result[0]]})if __name__ __main__:start time.time()args parsers()device cuda:0 if torch.cuda.is_available() else cpumodel load_model(device, args.save_model_best)texts [沈腾和马丽的新电影《独行月球》好看, 最近金融环境不太好投资需谨慎]print(模型预测结果)for text in texts:x process_text(text, args.bert_pred)with torch.no_grad():pred model(x)text_class_name(pred)end time.time()print(f耗时为{end - start} s) 以上基本流程完成。当然模型还需要调优来改进预测效果的。 代码是实际跑通的我训练和预测均使用的是GPU。如果是使用GPU做模型训练再使用CPU做推理预测的情况推理预测加载模型的时候注意修改下 myModel.load_state_dict(torch.load(model_path, map_locationtorch.device(cpu))) Done
http://www.w-s-a.com/news/407342/

相关文章:

  • 网站空间怎么选择tp5企业网站开发百度云
  • 网站建设saas排名成立公司的流程和要求及费用
  • 网站建设共享骨科医院网站优化服务商
  • 肯尼亚网站域名万能进销存软件免费版
  • 做商城网站价格上海做网站建设
  • 广州制作外贸网站公司阿里云网站模板
  • 做网站为什么要买服务器十堰城市建设网站
  • 西安网站seo技术厂家东莞如何制作免费的网页
  • 做旅游的网站的目的和意义极限优化wordpress
  • 做美食视频网站有哪些品牌营销策划机构
  • 佛山知名营销网站开发wordpress可视化编辑器排行
  • 石岩做网站哪家好石家庄做网站设计
  • 建设网站需要冠县做网站
  • 保定网站seo哪家公司好wordpress教程视频下载
  • 网站开发 哪些文档网站海外推广方法
  • 广西建设局网站首页如何做条形码网站怎么搞
  • 琼海建设网站wordpress 商城站下载地址
  • 网站需要多大数据库divider wordpress
  • 兰州北京网站建设网络广告推广网站
  • 宁晋网站建设森网站建设
  • 网站没有收录原因trel域名
  • 建设门户网站的目的和需求台州专业网站建设方案
  • 苏州网站建设系统方案成都行业网站设计
  • wordpress多说读者墙seo分析师招聘
  • 视频网站开发计划书wordpress文件详情
  • 重庆付费网站推广电商网站 开发周期
  • thinkcmf 做企业网站视频播放类网站建设费用
  • vps网站助手大学选修课网站建设
  • 南浦电商网站建设北京海淀社保网站
  • 传奇网站模板怎么做的吗大连警方最新通告