当前位置: 首页 > news >正文

led网站制作wordpress熊掌号主题

led网站制作,wordpress熊掌号主题,广告优化师怎么学,气象网站建设目录 预训练#xff08;Pretraining#xff09;与微调#xff08;SFT, Supervised Fine-Tuning#xff09;的区别 训练方式 数据组成 特殊标记#xff08;Special Tokens#xff09; Prompt处理 Session数据处理 训练目的 小结 LLM大模型预测耗时的粗略估计 1. …目录 预训练Pretraining与微调SFT, Supervised Fine-Tuning的区别 训练方式 数据组成 特殊标记Special Tokens Prompt处理 Session数据处理 训练目的 小结 LLM大模型预测耗时的粗略估计 1. 首个 Token 的生成耗时b 2. 后续 Token 的生成耗时k 详细过程 近似估算公式的应用 预训练Pretraining与微调SFT, Supervised Fine-Tuning的区别 训练方式 相同点预训练和微调在训练方式上没有任何区别都是通过梯度下降等优化算法来调整模型参数。不同点主要区别在于数据的组成形式和训练目标。 数据组成 预训练Pretraining 每条数据通常是满编的例如4K或8K长度的文本。数据来源广泛通常是无标签的海量文本数据。主要目的是让模型学习语言的基本结构和广泛知识。 微调SFT, Supervised Fine-Tuning 每条数据的长度根据原始数据的实际长度决定不一定是满编的。数据通常是有标签的并且包含特定任务的标注信息。引入预训练阶段未见过的特殊标记special_token如system、user、assistant等以帮助模型学习新的语义和角色。微调数据中会包含最重要的eos_token以便模型在生成时知道何时停止。 特殊标记Special Tokens 预训练Pretraining 通常不包含特殊标记模型主要学习通用的语言模式。 微调SFT, Supervised Fine-Tuning 引入特殊标记special_token如system、user、assistant等根据业务需求也可以有“背景”、“旁白”、“事件”等。这些标记帮助模型理解和区分不同的角色和语境。 Prompt处理 预训练Pretraining 通常不涉及prompt模型学习的是通用的语言知识。 微调SFT, Supervised Fine-Tuning Prompt的同质化比较严重所以通常不计算prompt的loss但如果确保每条prompt都是独一无二的可以省去prompt的loss_mask环节。 Session数据处理 在微调过程中需要明确是每一个answer都算loss还是只对最后一轮的answer算loss。 训练目的 预训练Pretraining 主要是让模型背书纯粹学习语言的广泛知识和结构。 微调SFT, Supervised Fine-Tuning 主要是让模型做题学习指令跟随能力instruction-following ability。不建议在微调阶段进行知识注入因为这会显著降低模型的通用能力。知识注入工作应该采用继续预训练continue-pretraining的思路进行控制在10%20%的比例而不是100%某个知识。 小结 预训练使用大量无标签数据进行训练主要学习语言的基本结构和广泛知识。微调使用有标签数据进行训练主要学习特定任务的指令跟随能力和语义理解。 通过预训练和微调的结合LLM能够在广泛的语言理解和生成任务中表现出色同时也能在特定任务中达到高水平的性能。 LLM大模型预测耗时的粗略估计 在自然语言处理模型特别是生成式模型如GPT系列中预测时间的近似估算可以表示为 ykxb 其中 y 是总预测时间。x 是生成的 token 总数量。k 是生成每个 token 的平均耗时。b 是生成首个 token 的耗时。 这个公式中的 b 和 k 主要受到以下几个因素的影响 1. 首个 Token 的生成耗时b 首个 token 的生成耗时较长主要原因如下 1.1 编码阶段 在生成第一个 token 时模型需要对输入的 prompt 进行编码。这涉及到将输入序列通过多层 Transformer 编码器进行处理以生成上下文向量。 1.2 KV Cache 初始化 在生成第一个 token 时模型需要初始化 Key-Value (KV) 缓存。KV 缓存用于存储每一层 Transformer 的键和值以便在生成后续 token 时可以快速访问这些缓存减少重复计算。初始化 KV 缓存的过程较为耗时因为需要对整个输入序列进行计算。 1.3 长度相关性 首个 token 的生成耗时与输入 prompt 的长度呈正相关因为较长的输入序列需要更多的计算资源和时间来进行编码和初始化缓存。 2. 后续 Token 的生成耗时k 生成后续 token 的耗时较短主要原因如下 2.1 KV Cache 利用 在生成后续 token 时模型可以利用之前生成的 KV 缓存从而避免对整个输入序列进行重复计算。这样生成每个新 token 只需要在现有缓存的基础上进行增量计算大大减少了计算量和时间。 2.2 自回归生成 生成每个新 token 时模型会将前一个 token 的输出作为输入结合 KV 缓存快速生成下一个 token。这种自回归生成方式在时间复杂度上相对较低。 详细过程 输入编码模型首先对输入 prompt 进行编码生成上下文向量。这一步包括嵌入层和多层 Transformer 编码器的计算。KV 缓存初始化在生成第一个 token 时模型会初始化 KV 缓存用于存储每一层 Transformer 的键和值。首个 token 生成利用上下文向量和初始化的 KV 缓存生成第一个 token。后续 token 生成在生成每个新 token 时模型利用之前的 KV 缓存和前一个 token 的输出进行增量计算快速生成下一个 token。 近似估算公式的应用 通过公式 ykxb我们可以近似估算模型的预测时间 首个 token 的耗时 b与 prompt 的长度和 KV 缓存的初始化有关通常是生成每个 token 耗时 k 的十几倍或更多。每个 token 的平均耗时 k由于利用了 KV 缓存生成每个新 token 的耗时较短且相对稳定。
http://www.w-s-a.com/news/135998/

相关文章:

  • 邓砚谷电子商务网站建设镇江网
  • 网站空间支持什么程序工作服款式
  • 网站单页品牌网站建设 蝌蚪5小
  • 怎么做外贸网站需注意哪些做电脑系统的网站
  • 网站建设介绍推广用语河南网站优化外包服务
  • 课程网站模板贵州省城乡与建设厅网站
  • 网站模板及源码谁家网站用户体验做的好
  • 做网站的技术要求搜索栏在wordpress菜单上位置
  • 如何给网站弄ftpwordpress怎么添加关键词描述
  • 成都工程建设信息网站金科网站建设
  • 传媒公司 网站开发厦门网站建设门户
  • 宿城区建设局网站做网站的绿色背景图
  • 网站空间托管合同 .doc网站开发团队 组建
  • 网站建设书本信息it运维服务
  • 四核网站建设设计网站流程
  • ui设计网站设计与网页制作视频教程wordpress插件漏洞利用
  • 网站建设公司排名前十做网站的最终目的
  • 选择网站开发公司的标准中国网站建设市场规模
  • 衣服网站建设策划书广州住房和城乡建设部网站
  • 微商城科技淄博网站建设优化seo
  • 杭州 网站设计制作东圃手机网站开发
  • 网站文章页内链结构不好可以改吗微信平台如何开发
  • 炫酷业务网站课程网站如何建设方案
  • 网站建设服务器可以租吗wordpress微信打赏
  • 网站制作的重要流程图大连网站优化快速排名
  • 河南省住房建设厅官方网站注册公司邮箱需要什么
  • 美橙网站注册华为手机网站建设策划方案论文
  • 河南省和建设厅网站首页在线图片翻译
  • 关于备案空壳网站清理通知去别人网站挂黑链
  • 做网站待遇世界购物平台排行榜