广西腾达建设集团有限公司网站,公司做网站的开支会计分录怎么做,如何做网站 优帮云,营业执照注册流程下面的内容很有可能事实错误#xff0c;胡说八道#xff0c;前后不连贯#xff0c;举例随意且未经考证 甚至 有意欺骗#xff01;嘻嘻。所以是【胡乱念叨】 文章目录 【胡乱念叨】大模型的“我”参数量和“我”什么是“我”从输入输出的观点看“我”大模型的“我”乱讨论 …下面的内容很有可能事实错误胡说八道前后不连贯举例随意且未经考证 甚至 有意欺骗嘻嘻。所以是【胡乱念叨】 文章目录 【胡乱念叨】大模型的“我”参数量和“我”什么是“我”从输入输出的观点看“我”大模型的“我”乱讨论 【胡乱念叨】大模型的“我”
现在有不少人在研究大模型的人格在讨论大模型沟通理解的能力。很多人潜意识里将其当成了人。
大模型貌似展现出了“我”的认知他好像知道自己是谁知道自己角色定位有自我的认知“仿佛好像”是个人。
那么它有“我”吗 参数量和“我”
认识“我”是个很有门槛的事情。地球上大部分动物都跨越不到这个门槛高等动物的特权。通常来说脑连接最少的还有自我意识的动物是一些鸟类例如乌鸦喜鹊它们显示出了相当程度的自我意识例如镜子测试。
我们通常用突触的数量类比模型参数量。人脑大概有100万亿个突触连接即使是喜鹊也有万亿的规模。如果在生物界这万亿规模是产生“我”的门槛那么这个数字是远超现有常见的大模型参数规模的十亿百亿
那为什么仅靠数十亿参数就能展现的像是有“我”一样大模型展现的是 假“我” 吗 [后面没有对这个问题的回答]
更何况自然生物的学习效率远比模型高。对于参数的利用效率上生物早已站在了scaling law圣经的左下角突破了大模型训练中跨越不过的天堑。
什么是“我”
啰里八嗦一堆什么是“我”都还没交代和讨论呢
什么是“我” 这个问题可难回答了 不妨反过来问什么不是“我”
你什么时候觉得你不是你 这个问题好回答的多 一句话回答当你不清楚你自己或者一部分自身的状态的时候你便觉得你不是你。
例如1睡觉的时候压着胳膊了麻了想抬起来却抬不起来你感觉你的手臂不是你的。 2鬼压床了想翻身翻不了你觉得身体好像不是自己的。 3你迷迷糊糊不小心带着包装袋把面条下进了锅里回过神来啊我做了什么刚才的我好像不是我 …
“我”是对自身状态的预测 1我想抬起胳膊神经给出命令胳膊被观察感知到抬起来了- 胳膊是我2我想煮面吃饭面顺利煮好了-行为被我执行了。
正因“我”是对自身状态的预测所以“我”很容易被欺骗。实验可以通过伪造迎合你对自身状态的预测从而轻易欺骗你对自我的判断。例如“橡皮手错觉”Rubber Hand Illusion
从进化论看“我”的视角为什么有我因为感受自身和预测自身能帮助生物在捕食和被捕食的关系中更具竞争力
从输入输出的观点看“我”
前面说我是对自身状态的“预测”从流程上来看是这样的
step 1 观察到周围世界的变化/自身做出某种举动去改变世界 step 2预测这种举动对自身的影响/预测其对周围世界的影响 step 3: 感受到自身的变化符合预测结果/观察世界的变化符合预期 step 4 由于符合预测于是我感受我
从输入输出来看 #mermaid-svg-gauXTX8RSfjqh3r5 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .error-icon{fill:#552222;}#mermaid-svg-gauXTX8RSfjqh3r5 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-gauXTX8RSfjqh3r5 .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-gauXTX8RSfjqh3r5 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-gauXTX8RSfjqh3r5 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-gauXTX8RSfjqh3r5 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-gauXTX8RSfjqh3r5 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-gauXTX8RSfjqh3r5 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-gauXTX8RSfjqh3r5 .marker.cross{stroke:#333333;}#mermaid-svg-gauXTX8RSfjqh3r5 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-gauXTX8RSfjqh3r5 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .cluster-label text{fill:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .cluster-label span{color:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .label text,#mermaid-svg-gauXTX8RSfjqh3r5 span{fill:#333;color:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .node rect,#mermaid-svg-gauXTX8RSfjqh3r5 .node circle,#mermaid-svg-gauXTX8RSfjqh3r5 .node ellipse,#mermaid-svg-gauXTX8RSfjqh3r5 .node polygon,#mermaid-svg-gauXTX8RSfjqh3r5 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-gauXTX8RSfjqh3r5 .node .label{text-align:center;}#mermaid-svg-gauXTX8RSfjqh3r5 .node.clickable{cursor:pointer;}#mermaid-svg-gauXTX8RSfjqh3r5 .arrowheadPath{fill:#333333;}#mermaid-svg-gauXTX8RSfjqh3r5 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-gauXTX8RSfjqh3r5 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-gauXTX8RSfjqh3r5 .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-gauXTX8RSfjqh3r5 .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-gauXTX8RSfjqh3r5 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-gauXTX8RSfjqh3r5 .cluster text{fill:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 .cluster span{color:#333;}#mermaid-svg-gauXTX8RSfjqh3r5 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-gauXTX8RSfjqh3r5 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 感受 预测 感受 预测 符合? 符合? 干预 干预 自身状态 我 可能未来自身状态 世界状态 可能未来世界状态 真实未来自身状态 真实未来世界状态 简单summary: 输入自身状态世界状态 输出可能未来自身状态可能未来世界状态主观能动的干扰 额外有度量能力判断是否“符合”
大模型的“我”
在上面的关系图里我尝试自己胡乱“匹配”一下当前大模型在什么位置
前提先明确大模型工作在对话场景中对话场景即大模型的世界结构。
输入内容
世界状态很明确就是对话另一方的输入大模型可以通过模型的输入清晰的感知自身状态不明确大模型的自身状态是什么。由于自身状态是变化的大模型参数又是固定不变的可变的自身状态就得是其缓存的KV Cache? 那这如何感受又如何预测
输出内容
主观的干预很明确接对方的话就是干预过程可能的未来自身状态不明确原因和输入内容不明确自身状态相同。可能的未来世界状态能够预测 思考到这一点我觉得很有意思也很重要。大模型拥有对自身干预对世界状态影响的预测能力有点饶舌。 这是由于大模型的训练过程中在预训练之后那些用于对话的模型会再次经历一轮在对话场景的微调。 这些数据大概长这样[start] User: How are you? [sep] Agent: I am fine, thank you [sep] User: I am fine, too. 我认为当大模型在多于一个来回的对话序列中训练时能拥有对自身干预对世界状态影响的预测能力。 例如上面的例子中Causal Language Model的损失函数是有学习如果自身进行了“ I am fine, thank you ”的干预后世界会如何回应“I am fine, too”
额外内容有度量能力判断是否“符合”貌似没有我更偏向于这是一个强化学习/Online learning应当讨论的问题。如果只从训练的角度它貌似部分和输出内容中对可能未来世界状态的预期重叠。从实际的角度来看我是一个动态的概念那应该要动态的判断是否“符合”这个“符合”与否的结果应当参与模型“我”的动态变化光想想就是相当有难度的问题。
标注在图上使用红色和蓝色分别标注明确有的能力和不明确的能力 #mermaid-svg-c0owhI83bVuHKfNH {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-c0owhI83bVuHKfNH .error-icon{fill:#552222;}#mermaid-svg-c0owhI83bVuHKfNH .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-c0owhI83bVuHKfNH .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-c0owhI83bVuHKfNH .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-c0owhI83bVuHKfNH .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-c0owhI83bVuHKfNH .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-c0owhI83bVuHKfNH .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-c0owhI83bVuHKfNH .marker{fill:#333333;stroke:#333333;}#mermaid-svg-c0owhI83bVuHKfNH .marker.cross{stroke:#333333;}#mermaid-svg-c0owhI83bVuHKfNH svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-c0owhI83bVuHKfNH .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-c0owhI83bVuHKfNH .cluster-label text{fill:#333;}#mermaid-svg-c0owhI83bVuHKfNH .cluster-label span{color:#333;}#mermaid-svg-c0owhI83bVuHKfNH .label text,#mermaid-svg-c0owhI83bVuHKfNH span{fill:#333;color:#333;}#mermaid-svg-c0owhI83bVuHKfNH .node rect,#mermaid-svg-c0owhI83bVuHKfNH .node circle,#mermaid-svg-c0owhI83bVuHKfNH .node ellipse,#mermaid-svg-c0owhI83bVuHKfNH .node polygon,#mermaid-svg-c0owhI83bVuHKfNH .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-c0owhI83bVuHKfNH .node .label{text-align:center;}#mermaid-svg-c0owhI83bVuHKfNH .node.clickable{cursor:pointer;}#mermaid-svg-c0owhI83bVuHKfNH .arrowheadPath{fill:#333333;}#mermaid-svg-c0owhI83bVuHKfNH .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-c0owhI83bVuHKfNH .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-c0owhI83bVuHKfNH .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-c0owhI83bVuHKfNH .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-c0owhI83bVuHKfNH .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-c0owhI83bVuHKfNH .cluster text{fill:#333;}#mermaid-svg-c0owhI83bVuHKfNH .cluster span{color:#333;}#mermaid-svg-c0owhI83bVuHKfNH div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-c0owhI83bVuHKfNH :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 感受 预测 感受 预测 符合? 符合? 干预 干预 自身状态 我 可能未来自身状态 世界状态 可能未来世界状态 真实未来自身状态 真实未来世界状态 乱讨论
貌似在对话场景中大模型好像有了一部分“我”的成因已经足够表现的像“我”了。按照之前的瞎说模型的“我”的认知应该是在第一阶段预训练之后才被赋予的这一点貌似有验证的可能。如果设计一个方法去度量模型的“我”的成分如果前面的说法有点道理的话llama-base应当无“我”而llama-chat应当有“我”。大模型结构设计真的没空间了吗大模型如何感受自我状态如何动态的“符合”预测状态和真实状态btw: 我依旧不认为模型串行是最优的我可能prefer浅层的并行的模型这样不同的part可以更好的并行执行他们的任务如预测/符合/感受而且在上一篇文章中我提到人的大脑能够独立并协同工作也是正常人抑制幻觉的重要能力的想法而且我还觉得这样更容易做到节能嘻嘻扯淡完毕