摄影工作室网站源码,百度为什么会k网站,完成网站集约化建设,wordpress模板修改器如何利用硬件
这个单元分为内核、并行处理和推理。 内核#xff08;Kernels#xff09;
我们说的内核一般指的就是GPU#xff0c;这是我们用于计算的地方#xff0c;一般说的计算资源就指的是GPU的大小。我们模型所用的数据和参数一般存储在内存里#xff0c;假设把内存…如何利用硬件
这个单元分为内核、并行处理和推理。 内核Kernels
我们说的内核一般指的就是GPU这是我们用于计算的地方一般说的计算资源就指的是GPU的大小。我们模型所用的数据和参数一般存储在内存里假设把内存比喻为仓库GPU比喻为工厂那么我们所要做的就是最大限度提高数据在仓库和工厂之间运输的效率像我们常说的矩阵乘法、融合或分块等算法都是在减少数据运输的成本。 并行处理parallelism
就如字面意思一样多个GPU连接着一个个CPU彼此并行传输数据我们需要思考如何防止模型参数、激活值模型在处理输入数据时每一层神经网络的中间输出结果。这些值反映了模型在特定层对输入信息的非线性变换结果是模型理解和生成文本的关键中间状态或梯度来提高运输效率与内核的本质是一样的只是这个的关键在于并行链接的处理方式。 推理inference
推理指的是我们实际使用模型的方式指的是在给定提示的情况下完成生成提示词的任务。推理的成本比训练模型的成本大得多后者是一次性成本而前者伴随着模型使用者的增多需要不断地提高推理的高效这就需要不断地投入成本。推理分为两个阶段预填充和解码。预填充阶段模型会根据提示词运行得到一些激活值然后在解码阶段自回归地生成一个个词元token。在推理中比较困难的就是解码阶段因为是一次生成一个token这很难让我们的并行处理的GPU进行饱和式的运行在这里会浪费一些资源同时由于不断地移动数据进一步地放大这种损失。当然我们可以选择一些快速推理模型来降低1成本浪费比如推理型解码通过预设一些tokens假设这些是我们需要的或通过评分认为这些是好的就全部接受从而省去了生成一部分token所花费的资源。
在构建这些部分的过程中我们要养成总是进行基准测试和性能分析的习惯。因为在过程中我们可以写想要实现的任何一个功能但我们需要反馈来确定进展在哪个阶段以及定位瓶颈也就是上限在哪里以便我们确认我们构筑的方向是对的以及处理好一些细节来提高上限。 缩放法则scaling laws
之前我们说到过理想情况是在小规模上做实验并弄清楚问题然后预测大模型下的超参数和损失。这里会引出一个基本问题假设给出一个浮点运算预算应该用多大的模型。如果使用更大的模型就意味着可以在更少的数据上训练相反则是可以在更多的数据上训练。那么该如何找到这里的平衡点呢我们一般会根据一个经验法则去判断假定有一个大小为n的模型那么将n乘以20得到的结果就是我们要训练的token的数量。当然这里指的是如何训练出最佳的模型而不是最划算的模型是忽略了模型的推理成本的。 数据
即使我们做好了架构调试好了参数但模型会用于做什么还是取决于我们输入的数据。如果是多语言数据那么训练出的就是多语言模型输入的是代码数据训练出的就是代码模型。那么我们该如何评估模型的能力呢。这就需要用到困惑度指标、标准化测试、跟随回复以及其他的一些包括评估整个模型的方法。
讨论完了评估我们继续回溯就到了如何筛选要训练的数据了。毕竟我们平时练习用到的数据很多都是别人处理好的不管是在网站爬取的统计数据还是网页上的文本都是需要进行大量的细节操作来进行筛选的以确保数据尽可能多保留我们想要的信息的前提下一般会用到分类器来过滤掉垃圾信息以及用去重来保证信息的唯一性不让模型重复识别某类信息更好地被模型识别。
在经历了这么多步骤后我们就得到了一个可以预测下一个token的基础模型。我们会通过对齐通过技术手段使得模型的输出是符合我们期望的的操作来满足三件事让语言模型的能够跟随指令去生成对应的token确定模型的风格模型能够拒绝回答一些性质是有害的问题。对其一般分为两个阶段一个是监督微调通过少数的数据一般在一千个就可以让模型可以跟随指令了来达成好的学习效果另一个是让模型去学习偏好的数据。即给定问题让模型去回答并让用户给回答打分从而得到偏好数据让模型去学习。最后是在这些数据的基础上应用算法让模型进行真正的训练以拥有对应的功能。
学习来源于B站教程【斯坦福大学 • CS336】从零开始构建语言模型 | 2025 年春季_哔哩哔哩_bilibili