当前位置：首页 > news >正文

个人网站电商怎么做广州市营销型网站建设

news 2025/12/28 4:41:39

个人网站电商怎么做,广州市营销型网站建设,wordpress模板源码,外发加工网app2025.2.17晚上21:57看完了整个视频#xff0c;作为一个ai专业的学生虽然每天都在用ai#xff0c;但是对于其背后的原理却不是那么清楚#xff0c;而卡帕西的这支视频却让我醍醐灌顶#xff0c;而且全程听起来很舒服#xff0c;没有知识强行进入脑子的痛感#xff0c;在他…2025.2.17晚上21:57看完了整个视频作为一个ai专业的学生虽然每天都在用ai但是对于其背后的原理却不是那么清楚而卡帕西的这支视频却让我醍醐灌顶而且全程听起来很舒服没有知识强行进入脑子的痛感在他的讲解下一切都是那么的自然所有内容娓娓道来感谢karpathy的讲解记住他的提醒ai只是你的工具他并不神秘。 AI 大神Karpathy再发LLM介绍视频入门必看_哔哩哔哩_bilibili 那么好接下来就是我对这个视频的学习笔记部分了我将根据视频内容分为四个部分按顺序来分别是pre training,post training,rl,other 一、预训练0:00:00-1:00:00 视频主旨是介绍到底什么是llm我们在使用的时候需要注意什么缺陷你在和他对话的时候究竟是在和一个什么样的东西说话。如何构建一个chatgpt 下载和处理互联网数据网站huggingface/fineweb,讲解如何构建一份互联网数据。本质上是爬虫爬取互联网上的高质量文档。common crawl是一个互联网组织做的事情就是扫描索引互联网上的各种网页跟踪链接最终就拿到了很多互联网数据。然后开始过滤。首先是URL过滤过滤到你不想要的网站。然后是文本提取从html中提取出文本也就是说去掉各种各样的修饰。那么在这一步其实公司就可以控制自己模型对于语言的侧重比如我排除掉中文网页那么模型在最后的中文表现一定很垃圾还有很多步骤但是总体来说是这样的流程。最后讲这些文本连接在一起就形成了一个纯文字的txt文本相当震撼。我们开始用它训练神经网络这样神经网络就可以内化并建模这些文本的流动方式。决定如何表示这些文本以及如何输入它因为这些神经网络接受一维的符号序列虽然这些文本已经是连续的一维序列了但是计算机本质上只能接受0和1所以我们需要用数字来表示。并且这个序列我们不想让他仅有0和1两个字符这样序列也会太长那会占用大量的资源我们需要去权衡这个词汇表的数量。当我们将每8个bit看做一个处理单元现在还没有引入token的概念的时候就把序列长度缩短了8倍数字大小在0255之间。这里我们严重可以讲这些数字看作为一个独特的emoji在制作现代的大模型的时候我们为了继续缩短序列长度可以表达出更多的emoji我们会寻找非常常见的连续字符举个例子“你”和“好”就经常一起出现那么我们就可以把他俩组合成一个新的emoji编号为256.以此类推现在的大模型词汇表大小量级在10万左右gpt4100277文本转化成这些emoji的过程我们就称之为tokenization标记化形象的观察gpt是如何进行标记化的登录https://tiktokenizer.vercel.app 我们在这里就可以看到之前很火的一个问题strawberry有几个r在这里就被分成了三个token这个问题后面我们会再次谈到。还可以试试hello world等等词语很有意思的一个观察获得对“token”的一个直观感受。连不同数量的空格对应的都有独特的token.在gpt中就一共有10万个这样的token nerural network training 在这一步我们是要建模这些token在序列中如何相互跟随的统计关系。我们在数据海洋中随机选择一段文本同时长度大小也叫窗口长度不易过大窗口的长度可以在0-max之间随便变化一般max就是取4千8千这种处理太多的token在计算上是expensive。比如说我现在去了4个token作为模型输入了剩下的就是和学过的深度学习一样降低loss让预测和实际的下一个token一样。注意这里的4个token就称为context上下文。模型的输出是这100277个token分别对应的概率。整个网络在训练过程中正在并行的重演无数次这样的预测和改进。神经网络内部的样子这个网络中的参数在一开始是随机的但是在训练过后就会逐渐形成训练文本中的统计关系。你可以想象这个网络就像DJ的调音台你不断微调这个调音台上的各种参数旋钮最终能够演奏出曲风相似的音乐来想要观看一个实际的生产级示例这个网站https://bbycroft.net/llm,展示了具体的模型但是内部的模型结构并不是我们关注的焦点因为这个教程是面向非技术人员的具体的技术分析会放在另外的笔记中 4. 推理部分算法和训练是一模一样的只是参数不用再变化。karpathy在讲的时候也始终保持着通俗易懂的讲法比如在推理时我们输入一些token然后模型开始根据这些token掷硬币将可能性最大的硬币选出来必须强调这是个随机系统所以我们并不太可能完全重现我们训练文本中的内容模型学到的其实是一种有损压缩ok吧。 5. 在实际过程中我们在训练时会尝试不同种类设置不同种类排列和不同尺寸的网络。当有一个好的参数的时候你就ship他嘻嘻。 6. GPT-2 从现在的视角来看gpt-2和现在的模型并没有什么区别只是所有东西都变得更大。token的最大上下文才是1024个意味着无论是训练还是推的时候他的窗口大小都不会差过1024.上下文和窗口的含义略有区别在这里做一些严谨的定义总结来说 •上下文是模型理解和生成的内容它是动态的取决于模型正在处理的文本。 •窗口是一个固定大小的滑动范围它限定了模型能看到的上下文的长度。记住重要指标就是loss越低越好就能更好的预测下一个标记。这样训练出来的模型叫做基础模型 base model ,他只是一种互联网文本的模拟器并不是我们现在常用的assitant可以在大模型实验场试一下这两类模型的回答相当明显的区别base model vs instruct model 他俩的区别可能用具体的回答来展示更为直观。虽然base model并不能像chatgpt一样正常回答问题但是还是可以通过设计完成一些任务虽然我觉得没什么必要二、后训练监督微调1:00:00-2:07:00 post training在计算上比预训练要便宜的多在这里我们讲一个模型变成一个助手。具体做法就是给他一些人类对话的数据集让模型学习完全相同的算法只是换了一下数据集。在这个过程中有一些和前面相关联的知识点对话的分词处理我们制定一个规则或者数据结构将对话编码为token 如图所示的 |im_start就是一种显著的token也是我们在后训练期间新增加的一个token在那十万个token之中所有句子只是那十万个token的排列组合而已莫忘莫忘以 |im_end 结束对话。这个方法的发明也是openai的杰作发的有论文。 kapathy在这里也非常哲学式地思考我们在和chatgpt对话的时候到底是在和什么对话式给他标注对话数据集的人类么只是人类标注者的模拟幻觉幻觉从何而来因为在对话数据集中都是自信满满的回答早期模型并没有学会说不哈哈所以他必须继续依靠概率输出自己的回答这就是所谓幻觉。但是如果在数据集中加入了对于不知道问题的回答示例那么模型就能学会在知道自己不知道的时候敢于说不知道。首先要明确自己的模型不知道什么搞清楚模型的知识边界其实就是问很多问题然后把所有他确实不知道的问题单独列成数据集进行训练然后针对这些数据集进行“不知道”的回答。这样的做法听起来似乎非常简单但是却很有用因为在base模型中模型可能已经有了自我认知你知道自己不知道某些事情某些时候特定的几个神经元将会亮起那个时候就应该是说不知道的时候了只需要稍加演示他们就能学会。缓解幻觉的第二个方法加入网络搜索也是加入一组新的token表示搜索比如看到说search_satrt and search_end这种就去执行搜索讲搜索结果放进上下文。同样的构造数据集让模型训练和学习。同时强化一个认知就是大模型的记忆是对话联网知识的有损压缩上下文是直接记忆可以直接用的无损的。因为当你需要更精确的内容的时候最好可以在上下文中直接给出参考资料而不是仅仅依靠他的记忆力。还有一点就是模型的自我认知比如我们问deepseek他可能会回答自己是openai训练的但实际上如果不预先训练的话ai只是从训练资料中选择最佳回答无疑openai和chatgpt是被提到最多的他不知道自己是谁只有给他看一些对话数据集才行哦。关于如何让模型的数学计算能力变强本质上这还是涉及到神经网络结构及其计算方式。比如下面这道数学题我们应该选择哪种解法放进训练集呢肯定是第二种第一种直接给出答案本质上就是在心算因为都是根据前文的概率吐出下一个字也就是说这个答案只是经验的结果第二个解答过程就是一步一步的推导得出最终答案之后模型已经经过了充分的思考答案就更有可信度。更理论一点的来讲每个token经过整个网络的计算量是有限的在得到答案前尽可能多的思考肯定是有利的。其实我们多实验几个例子之后不难发现让模型直接说出答案往往是错误答案。包括模型的计数能力查草莓的r查。。。。的点数都不会太好一个是上面说的模型的心算能力并不是很强第二个原因就是模型都是token化的查数也不友好他们看不见字符他的世界里只有token或许我们将来会有一个字符级或字节级的模型但是那样序列会很长目前还不知道要如何处理。包括9.11和9.9比大小,这个有可能是圣经读太多了(bushi 三、强化学习2:10:00 大神在这解题节的开始用学生学习一本书承上启下课本知识就像是预训练例题就像是SFT那么RL就是课后习题给你答案模型要自己找出最好的解题路径。为什么这很重要因为llm的语言与我们人类的语言并不相通我们并不知道对于llm而言什么样的token排列方式能够更好的求解出答案因此我们最好是让模型自己来摸索根据最终答案来进行反馈找到自己写题的最佳思考方式。总结就是认知不同不要瞎掺合 RL的过程比如让模型写一道题尝试多次每一次尝试都会生成不同的结果。假设结果如下图所示有正确的有错误的我们的目的是鼓励那些能得出正确答案的解决方案所以就用这些正确的解题过程拿去训练模型肯定要训练啊不然模型现在不还是不会写这道题方法论略有不同但思想一样所以在前面进行的SFT等一系列操作都是有必要的相当于讲模型带到了正确解的附近模型只需要开始尝试即可有很大概率能写出正确答案而强化学习就是那临门一脚 deepseek是第一家公开赞扬强化学习对大模型作用的公司引起了大家对于强化学习的信心图为强化学习后的ds模型在AIME数学题上提升而且模型在学习过程中用到的token也越来越多这是自然而然的表现模型在rl过程中学会了多角度思考和验证自己的思路称为涌现。这都是模型自己学出来的因为没有人类标注员在回答里面嵌入这些思考过程amazing啊llmaha moment 谈到强化学习就绕不过去一个东西alphago。当我们将目光投向AlphaGo的论文发现了一个似曾相识的图表。。。从图中可以看出单纯的模仿并不能超越人类玩家但是探索可以。第37步指神之一手阿尔法狗打出来的。四、杂谈RLHF、Karpathy对未来的一些思考2:47:00-3:09:00是未来展望在不可验证领域比如写作讲笑话这种不好直接打分所以我们的解决方法是 RLHF注意他的本质当然是RL但他更像是是一种微调因为这个强化学习并不能无限运行下去人类先训练一个模型充当评分器这个训练好的模型要与人类的偏好保持一致比如判断小说的好笑程度对回答排个序然后模型就可以基于此进行训练。这个方法来源于openai的一篇论文在无人验证的领域进行强化学习这个方法的好处让我们能再人愿意领域进行实验包括那些无法验证的领域而且允许人们在不必完成极其困难的人物的情况下提供他们的监督比如写诗。显著缺点一开始模型的表现会逐渐变好但是到最后他的表现可能会一落千丈因为被模型内部发现了这种训练方式在这个问题下的不足强化学习很擅长找到欺骗他的方式也就是说总会有很荒谬的结果来干预这个过程毕竟这个模拟器他并不完美。因此我们在模型改善差不多之后应该立刻进行裁剪不然就会变差。 ok差不多到这里就结束了3小时之后的内容就没有再做记录了因为个人感觉重复有点多很多信息现在也都知道了。学的很爽。RL正在觉醒….

查看全文

http://www.w-s-a.com/news/315490/