当前位置: 首页 > news >正文

做网站需要注册什么公司wordpress 地方生活

做网站需要注册什么公司,wordpress 地方生活,android开发工具手机版,大数据网站建设和所谓知识注入#xff0c;其实不该脱离于LLM的基础工作原理#xff0c;然后空谈抽象概念。 知识#xff0c;也就是你问他问题#xff0c;他能输出正确的回答#xff0c;这只是一个简单的输出token的过程。输出得准了#xff0c;就是知识#xff0c;输出不准了#xff0c…所谓知识注入其实不该脱离于LLM的基础工作原理然后空谈抽象概念。 知识也就是你问他问题他能输出正确的回答这只是一个简单的输出token的过程。输出得准了就是知识输出不准了你就说它是幻觉。什么是幻觉不就是该输出的token上概率不大导致的乱输出。 所以知识注入就是你要对一个query自回归输出一个完全一致的answer。如果你愿意不考虑LLM的其他功能就为了某一个QA对服务你完全可以加训个100个epoch它必然就“记住”了。 知识注入根据知识的体量、复杂度、垂类程度不同要基于增量预训练、sft、也必须使用RLHF和DPO。 对于这么一个QA:XXX的生日是多少1980年1月23日。sft的所有loss都是先拿到正确的前述token然后计算当前token的loss。假设现在LLM训练好了对于query后续token的概率都很高除了”8“这个位置的概率几乎为0那么对于后面的“0年1月23日”如果前面这个“8”LLM吐不出来那么它们的高概率也就完全不顶用了大概率是要出所谓的“幻觉”的毕竟你现在的状况和训练时候完全不一样嘛。可这种情况放sft里loss很小。也就是说8这个数字在sft阶段会训练不完全。 这里只是一个例子实际上tokenizer大概率把1980这一整个数字绑定成一个token或者是19和80。 RLHF和DPO这类RL算法的训练目标是我当前这个token的reward和选定token后对未来value的期望要达到最高。如果出现8这个数字概率低的情况且如果value函数正常工作那么RL会知道你必须给8的概率拉高否则整个后续的reward期望会极低。RL和SFT的差距就在这里RL要考虑当前对后续的影响sft只要考虑当前这个token就好。 (RL的思想很好但是value函数正常工作这个条件没那么好保证所以RL不稳定。这是必须先sft后rl的原因。) 对于简单的知识注入例如“改变大模型的自我认知”随便给几条认知相关的内容重复的简单数据用lora训个10个epoch就能得到极好的效果。我基于qwen1.5-7b-chat尝试sft注入1000条简单的wiki的知识lora rank32epoch1lr3e-5。然后手动测试了几条wiki数据发现关于数字的会有严重幻觉例如“丹麦海峡的最长长度是多少“不仅是我的模型你百度去搜百度ai给的结果也不对。关于医学的会很差劲因为过于复杂了需要专业知识才能撑得起来我给的回答我敢信我的医学数据的每条answer的困惑度都极高这使得LLM不可能仅凭一次训练就扭转输出。但是简单知识会记得很好我让他记住他是一根香蕉(简单QA)他也记住了。最后测得c-eval评分还能维持69比微调前的71不差多少。 对于复杂的知识注入绝对不能寄希望于少量数据就完成训练。这个复杂既是指存在很多生词和知识点还是指知识体系的庞大还是指answer很长。前两个好理解第三个其实就是前面说的8的问题你answer一长中间出错的概率就高就不容易续写成功。 我们统称符合上面特点的数据为“垂类数据”。 对于垂类数据你绝不能期望仅用finetune和简单的lora就能成功。你的垂类数据和LLM的训练数据可以说是分布完全不相似的两组数据你无法通过简单的lora微调就让LLM从一个输出分布就跳到另一个完全不同的分布上。走完预训练sftrl基本是标配了。 预训练的作用是解决“眼生”的问题所谓获取知识也就是这个你希望“给个query返回一个answer”这个answer的碎片就隐藏在预训练的数据里。所以这里需要大量预训练数据。 然后是sft。为什么不直接rl因为rl存在不稳定的问题所以最好用sft先把底子打好。sft就是给了LLM一个输入输出的范式“问哪个问题就回答哪段话”。问题是问题的花样可多了要是大伙都一个问问题的方式对我们来说就没这么累了。有一批人专门干批量指令生成就是为了得到“一个问题多种表达”的数据以适应用户的需求。sft阶段一定要尽量压低loss既然干了垂类模型就千万别考虑泛用性了否则你就得重走一遍chatgpt的训练路子数据也得用人家量级的区别就是你多了一份垂类数据。Gimini今年6月有个论文指出幻觉就是loss太大你压低就没幻觉了这从上面对8的讨论也能看出来。所以一定要对单知识点做多指令QA既可以等价于多个epoch又可以防止过拟合并且知识量大就必须有海量数据支撑。 rl阶段可以选rlhf和dpo后者现在好像效果更好但是还是得看实际数据所以两种都要做。
http://www.w-s-a.com/news/716539/

相关文章:

  • 58同城有做网站wordpress怎么改标题和meta
  • 安通建设有限公司网站东莞地铁app
  • 群晖nas做网站滨州教育平台 网站建设
  • 住房城市乡建设部网站装修平台有哪些
  • 小米网站 用什么做的深圳广告公司前十强
  • 勤哲网站开发视频瑞安 网站建设培训
  • 有个蓝色章鱼做标志的网站高端的网站建设怎么做
  • 建站网址导航hao123html网页设计实验总结
  • 西宁市网站建设价格丽水集团网站建设
  • 长宁怎么做网站优化好本机怎么放自己做的网站
  • 诚信网站备案中心网站字体怎么设置
  • 企业网站建设费是无形资产吗佛山网站建设哪个好点
  • 网站建设就业方向国开行网站毕业申请怎么做
  • 创建一个网站的费用wordpress 4.0 安装
  • 会员登录系统网站建设dw软件是做什么用的
  • 手机网站被做跳转长沙网上购物超市
  • 网站建设中网站需求分析设计网站推荐html代码
  • 容易收录的网站台州汇客网站建设
  • 企业网站源码百度网盘下载网站备案号如何查询密码
  • 个人网站建设课程宣传栏制作效果图
  • 自己做的网站能上传吗网上做彩票网站排名
  • 教育培训网站模板下载自己做商务网站有什么利弊
  • 平面设计公司网站兰州室内设计公司排名
  • 个人工作室注册条件温州seo结算
  • 360免费建站系统中国建设银行官网站黄金部王毅
  • 罗源福州网站建设个体户可以网站备案吗
  • 网站开发 专有名词pc网站建设和推广
  • 上海部道网站 建设conoha wordpress
  • 手机测评做视频网站宝塔可以做二级域名网站么
  • 代理公司注册济南重庆seo优化效果好