当前位置: 首页 > news >正文

常州网站制作机构动画设计培训学校排名

常州网站制作机构,动画设计培训学校排名,织梦怎么做淘客网站,做拍福利爱福利视频网站背景 使用大语言模型做实体识别的实验时#xff0c;发现大模型关于实体的边界预测一直不准。 主要原因在于当时找了很多同学标注数据#xff0c;由于不同组同学关于实体的边界没有统一#xff0c;故导致数据集中实体边界也没统一。 #xff08;找太多人标#xff0c;会有…背景 使用大语言模型做实体识别的实验时发现大模型关于实体的边界预测一直不准。 主要原因在于当时找了很多同学标注数据由于不同组同学关于实体的边界没有统一故导致数据集中实体边界也没统一。 找太多人标会有这样的缺点 如果重新标注数据那么之前的标的数据就浪费了而且又得折腾人来标。 虽然之前标的数据不好但训练出的大模型还是学到了一些东西。于是便打算让训练后的大模型预测将大模型预测的结果导入到Doccano再人工修正大模型预测不准的实体这样可以减轻人工标注压力还能轻易获得更多的数据集。 简介 展示大模型预测输出的数据格式展示Doccano 命名实体识别导入的数据集格式提供将大模型输出数据转为Doccano 导入数据集格式代码 大模型预测结果的样例如下 {instruction: 你是专门进行实体抽取的专家。请从text中抽取出符合schema定义的实体不存在的实体类型返回空列表。请按照JSON字符串的格式回答。schema:[数据, 项目, 任务], text:三大攻坚战取得关键进展, input: , output: {\数据\: [], \项目\: [\三大攻坚战\], \任务\: []}, predict: {数据: [], 项目: [三大攻坚战取得关键进展], 任务: []} }Doccano 导入的数据集样例如下 {id:17168,text:三大攻坚战取得关键进展,label:[[0,5,任务]],Comments:[]}大模型输出数据转为Doccano 代码 找出模型预测的实体在text句子的开始下标和结束下标 def find_substring_indices(parent_string, substring): start_index parent_string.find(substring) if start_index ! -1:end_index start_index len(substring)return start_index, end_index else: return -1, -1import redef tran_llm_doccano(input_file, output_file, schema):doccano_format {text: None,label: [],Comments: []}def _find_text(text):pattern rtext:(.*?), match re.search(pattern, text, re.MULTILINE)text_content match.group(1)return text_contentwith open(input_file, r) as f:with open(output_file, w) as w:for line in f:text _find_text(line)doccano_format[text] textdata json.loads(line)predict data[predict]tmp []for ent_cls in schema:for predict_ent_name in predict[ent_cls]:start_idx, end_idx find_substring_indices(text, predict_ent_name)if start_idx -1 or end_idx -1:continuetmp.append([start_idx, end_idx, ent_cls])doccano_format[label] tmpw.write(json.dumps(doccano_format, ensure_asciiFalse) \n)schema [数据, 项目, 任务] tran_llm_doccano(data.jsonl, doccano_import.jsonl, schema)tran_llm_doccano(input_file, output_file, schema): input_file 大模型预测的结果文件output_file 到入到 doccano的文件schema 实体类别 将 大模型的预测结果转换后的Doccano格式的 output_file 文件导入到Doccano的结果如下图所示 开源 完整的代码点击查看 https://github.com/JieShenAI/csdn/blob/main/24/04/tran_llm_doccano/tran_llm_doccano.ipynb
http://www.w-s-a.com/news/736015/

相关文章:

  • 百度seo 站长工具网络营销课程个人总结3000字
  • 设计品牌网站wordpress商城 中文站
  • 公司网站要备案吗百度售后电话人工服务
  • 北京移动网站建设制作一个购物网站
  • 网站优化排名如何做网络开发工程师
  • 域名已有服务器也有怎么做网站pc 手机网站 微站
  • 鞍山网站设计制作网站最好的外贸网站建设
  • 百度手机模板网站新变更营业执照注册号查了发现之前有备案过网站了
  • 群晖个人网站建设建设网站主机免费版
  • 下载好了网站模板怎么开始做网站阿克苏网站建设价格
  • 有谁做彩票网站学会了vue 能搭建一个网站平台
  • 描述对于营销型网站建设很重要飘红效果更佳教育培训排行榜前十名
  • 国外网站有哪些推荐的网站按关键词显示广告图片
  • 互联网招聘网站排名手机网站系统
  • 网站与云平台区别企业网站建设有什么要求
  • wordpress福利网站源码高端网站设计培训机构
  • 网站建设找客户招标网免费
  • 东莞食品网站建设扬州市住房建设局网站
  • 网站色彩心理建设网站的主要功能有哪些
  • 营销型网站建设运营企业宣传网页设计
  • 建设银行官方网站网址sem搜索
  • 简述建设网站的具体步骤网络建设方案ppt
  • 自建门户网站建设工程质量监理协会网站
  • 为企网站版面设计经历了哪几个阶段
  • 如何直到网站是用什么模板做的怎么在外贸公司拿订单
  • 网站专题制作酒店网站建设考虑的因素
  • 苏州招聘网站建设潍坊网站建设wfxtseo
  • 手机网站特效做互联网平台要多少钱
  • 做网站广告推广平台旅游网站后台管理系统
  • ppt模板下载免费素材网站php网站开发平台下载