当前位置：首页 > news >正文

做网站需要注册什么公司wordpress 地方生活

news 2026/4/9 6:16:45

做网站需要注册什么公司,wordpress 地方生活,android开发工具手机版,大数据网站建设和所谓知识注入#xff0c;其实不该脱离于LLM的基础工作原理#xff0c;然后空谈抽象概念。知识#xff0c;也就是你问他问题#xff0c;他能输出正确的回答#xff0c;这只是一个简单的输出token的过程。输出得准了#xff0c;就是知识#xff0c;输出不准了#xff0c…所谓知识注入其实不该脱离于LLM的基础工作原理然后空谈抽象概念。知识也就是你问他问题他能输出正确的回答这只是一个简单的输出token的过程。输出得准了就是知识输出不准了你就说它是幻觉。什么是幻觉不就是该输出的token上概率不大导致的乱输出。所以知识注入就是你要对一个query自回归输出一个完全一致的answer。如果你愿意不考虑LLM的其他功能就为了某一个QA对服务你完全可以加训个100个epoch它必然就“记住”了。知识注入根据知识的体量、复杂度、垂类程度不同要基于增量预训练、sft、也必须使用RLHF和DPO。对于这么一个QA:XXX的生日是多少1980年1月23日。sft的所有loss都是先拿到正确的前述token然后计算当前token的loss。假设现在LLM训练好了对于query后续token的概率都很高除了”8“这个位置的概率几乎为0那么对于后面的“0年1月23日”如果前面这个“8”LLM吐不出来那么它们的高概率也就完全不顶用了大概率是要出所谓的“幻觉”的毕竟你现在的状况和训练时候完全不一样嘛。可这种情况放sft里loss很小。也就是说8这个数字在sft阶段会训练不完全。这里只是一个例子实际上tokenizer大概率把1980这一整个数字绑定成一个token或者是19和80。 RLHF和DPO这类RL算法的训练目标是我当前这个token的reward和选定token后对未来value的期望要达到最高。如果出现8这个数字概率低的情况且如果value函数正常工作那么RL会知道你必须给8的概率拉高否则整个后续的reward期望会极低。RL和SFT的差距就在这里RL要考虑当前对后续的影响sft只要考虑当前这个token就好。 (RL的思想很好但是value函数正常工作这个条件没那么好保证所以RL不稳定。这是必须先sft后rl的原因。) 对于简单的知识注入例如“改变大模型的自我认知”随便给几条认知相关的内容重复的简单数据用lora训个10个epoch就能得到极好的效果。我基于qwen1.5-7b-chat尝试sft注入1000条简单的wiki的知识lora rank32epoch1lr3e-5。然后手动测试了几条wiki数据发现关于数字的会有严重幻觉例如“丹麦海峡的最长长度是多少“不仅是我的模型你百度去搜百度ai给的结果也不对。关于医学的会很差劲因为过于复杂了需要专业知识才能撑得起来我给的回答我敢信我的医学数据的每条answer的困惑度都极高这使得LLM不可能仅凭一次训练就扭转输出。但是简单知识会记得很好我让他记住他是一根香蕉(简单QA)他也记住了。最后测得c-eval评分还能维持69比微调前的71不差多少。对于复杂的知识注入绝对不能寄希望于少量数据就完成训练。这个复杂既是指存在很多生词和知识点还是指知识体系的庞大还是指answer很长。前两个好理解第三个其实就是前面说的8的问题你answer一长中间出错的概率就高就不容易续写成功。我们统称符合上面特点的数据为“垂类数据”。对于垂类数据你绝不能期望仅用finetune和简单的lora就能成功。你的垂类数据和LLM的训练数据可以说是分布完全不相似的两组数据你无法通过简单的lora微调就让LLM从一个输出分布就跳到另一个完全不同的分布上。走完预训练sftrl基本是标配了。预训练的作用是解决“眼生”的问题所谓获取知识也就是这个你希望“给个query返回一个answer”这个answer的碎片就隐藏在预训练的数据里。所以这里需要大量预训练数据。然后是sft。为什么不直接rl因为rl存在不稳定的问题所以最好用sft先把底子打好。sft就是给了LLM一个输入输出的范式“问哪个问题就回答哪段话”。问题是问题的花样可多了要是大伙都一个问问题的方式对我们来说就没这么累了。有一批人专门干批量指令生成就是为了得到“一个问题多种表达”的数据以适应用户的需求。sft阶段一定要尽量压低loss既然干了垂类模型就千万别考虑泛用性了否则你就得重走一遍chatgpt的训练路子数据也得用人家量级的区别就是你多了一份垂类数据。Gimini今年6月有个论文指出幻觉就是loss太大你压低就没幻觉了这从上面对8的讨论也能看出来。所以一定要对单知识点做多指令QA既可以等价于多个epoch又可以防止过拟合并且知识量大就必须有海量数据支撑。 rl阶段可以选rlhf和dpo后者现在好像效果更好但是还是得看实际数据所以两种都要做。

查看全文

http://www.w-s-a.com/news/716539/