当前位置: 首页 > news >正文

怎么做游戏测评视频网站企业网站建设方案渠道

怎么做游戏测评视频网站,企业网站建设方案渠道,linux网站环境,爱站工具包之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型#xff0c;总体来说llama2的生态还是比较好的#xff0c;过程很顺利。微调百川2就没那么顺利了#xff0c;所以简单做个记录 1. 数据准备#xff0c;我的数据是单轮对话#xff0c;之前微调llama2已经按…    之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型总体来说llama2的生态还是比较好的过程很顺利。微调百川2就没那么顺利了所以简单做个记录 1. 数据准备我的数据是单轮对话之前微调llama2已经按照sft格式做好txt文件翻看https://github.com/baichuan-inc/Baichuan2发现用的是json和我所用数据格式有所出入训练我还是用一开始用llama2的finetune脚本和参数按照baichuan2的数据格式调整了代码。不过最后为了兼容llama2我就把llama2的数据格式和tokenize_function给用在了百川2上看起来也没啥问题。 2. 模型选取用baichuan2-13b-chat作为预训练权重推理的时候总是头部输出我要的内容但是输出总是无法停止就算训完一个epoch也是这样很怪异研究半天不知道所以然干脆放弃采用不带chat的baichuan2-13b作为预训练权重这次很快出结果只要iter 100次保存下来的模型输出也是我想要的内容所以就不换了暂时用baichuan2-13b。主要是llama2已经跑的很好我实验也就不求甚解将就先用baichuan2-13b。在这个过程中--lora_r 1 --lora_alpha 32 --lora_dropout 0.1这几个参数我按照baichuan2仓库里设置了。 3. 给百川模型的加载统统加上trust_remote_code不然总是提示你y/N选择孙悟空都会是烦死了。 4. 训练模型遇到的错误1:  AttributeError: BaichuanTokenizer object has no attribute sp_model 这个错误通过简单回滚transfomers解决python3 -m pip install transformers4.33.2另外还有一个错误忘了具体是啥通过回滚bitsandbytes解决python3 -m pip install bitsandbytes0.41.0幸运的是llama2在这两个模块版本下同样工作。上面的错误其实也有人说挪下tokenization_baichuan.py里的super的位置我改了几处这个文件似乎不起作用随即放弃这个方案。 5. ​推理过程遇到的错误2这个错误也是折腾了我好一会通过给AutoModelForCausalLM.from_pretrained加上pretraining_tp1参数解决先跑通原理没去深究了。 RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x20 and 9x5120) 6. 训练还遇到一个内存不足的问题3google了两把按照提示加了个环境变量PYTORCH_CUDA_ALLOC_CONFmax_split_size_mb:1536果然就好了谷歌不欺我也。内存不是真不足而是碎片化严重调整max_split_size_mb比降低batch size总是好的。 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 23.69 GiB total capacity; 20.29 GiB already allocated; 579.94 MiB free; 22.56 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 7. llama2微调的参数module是q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj这些百川2很奇怪有个自己的W_pack把全连接打印了一下其实还有down_proj,o_proj,up_proj,gate_proj微调这几个部分效果也差不多微调哪些更好哪些更差暂时就不去比较了遇到问题也许可以调整一下。
http://www.w-s-a.com/news/594137/

相关文章:

  • 运动鞋建设网站前的市场分析wordpress 搜索框代码
  • app开发网站开发教程平台网站开发的税率
  • 百度网站优化排名加强服务保障满足群众急需i
  • 宁夏建设职业技术学院网站安徽网站优化建设
  • 四川关于工程建设网站硬盘做网站空间
  • 桂林网站制作培训学校外包seo公司
  • 莱州网站建设方案北京装修公司口碑
  • 大型网站建设济南兴田德润团队怎么样韩国女足出线了吗
  • 南通做网站找谁重庆网络推广网站推广
  • ps网站主页按钮怎么做怎样做网站的用户分析
  • 哪个网站做黑色星期五订酒店活动公司网络营销推广软件
  • 岳阳新网网站建设有限公司网页设计基础考试题目
  • 辽宁响应式网站费用海外平台有哪些
  • 杨凌规划建设局网站网站后台建设怎么进入
  • 有赞商城网站建设企业管理咨询是做什么的
  • 提供衡水网站建设中国石化工程建设有限公司邮政编码
  • 大芬地铁站附近做网站工业设计公司报价
  • 建设网站最强永年网站建设
  • 网站分站代理加盟wordpress国内工作室主题
  • 东营远见网站建设公司服装网站建设内容
  • 互助平台网站建设费用百度seo优化怎么做
  • lol英雄介绍网站模板工商局网上注册
  • 电商网站运营策划什么样的网站容易做seo
  • 网站备案需要什么流程怎么创建小程序卖东西
  • 陇西网站建设 室内设计持啊传媒企业推广
  • 连云港做网站制作首选公司如何让单位网站做防护
  • wordpress企业网站源码开发网站用什么工具做设计
  • 网站负责人不是法人seo神马网站推广器
  • 网站建设绩效考核方案wordpress支付宝付款
  • 高要区住房和城乡建设局网站如何网上注销自己的公司