当前位置: 首页 > news >正文

长春火车站咨询电话新图闻的互联网+产品及服务

长春火车站咨询电话,新图闻的互联网+产品及服务,说几个手机可以看的网站,防封电销系统1. BERT的多头注意力为什么需要多头#xff1f; 为了捕捉不同子空间的语义信息#xff0c;每个头关注不同的方面#xff0c;增强模型的表达能力 2. 什么是softmax上下溢出问题#xff1f; 问题描述#xff1a; 上溢出#xff1a;ye^x中#xff0c;如果x取非常大的正数…1. BERT的多头注意力为什么需要多头 为了捕捉不同子空间的语义信息每个头关注不同的方面增强模型的表达能力 2. 什么是softmax上下溢出问题 问题描述 上溢出ye^x中如果x取非常大的正数yfloat32格式数据就会溢出 下溢出如果x取非常小的负数y就是0.00000000几超过有效位数后y就是0了如果分母都是0就会出错。 解决方法 x同时减去x_max即可解决。 上溢出最大值变为了0因此y不会溢出 下溢出分母必然存在1因此不会为0。 3. 为什么NLP用LayerNorm而不是BatchNorm 标准化的目的1. 不同特征间的尺度需要归一化 2. 深度学习中矩阵乘容易导致向量元素不断变大为了网络的稳定性需要归一化 BatchNorm是对一个batch-size样本内的每个特征的所有样本做归一化LayerNorm是对每个样本的所有特征做归一化。 BN抹杀了不同特征之间的大小关系但是保留了不同样本间的大小关系LN抹杀了不同样本间的大小关系但是保留了一个样本内不同特征之间的大小关系。batch size较小或者序列问题中可以使用LN。 总结原因 首先一个存在的问题是不同样本的序列长度不一致而Batch Normalization需要对不同样本的同一位置特征进行标准化处理所以无法应用当然输入的序列都要做padding补齐操作但是补齐的位置填充的都是0这些位置都是无意义的此时的标准化也就没有意义了。 其次上面说到BN抹杀了不同特征之间的大小关系LN是保留了一个样本内不同特征之间的大小关系这对NLP任务是至关重要的。对于NLP或者序列任务来说一条样本的不同特征其实就是时序上的变化这正是需要学习的东西自然不能做归一化抹杀所以要用LN。 4. RLHF训练过程是怎么样的 RLHF 是一种结合强化学习RL和人类反馈HF的 AI 训练方法能够有效提升 AI 生成文本的质量。其核心步骤包括 监督微调SFT训练初始模型。 奖励模型训练RM基于人类反馈优化奖励函数。 强化学习RL使用 PPO 等方法优化策略提高模型表现。 5. 大模型训练有几步 大模型训练主要有4步 Pretraining — 预训练阶段自监督学习数据库量大质量低 Supervised FinetuningSFT — 监督微调也叫指令微调阶段人工问答数据用于训练质量高数量少 Reward Modeling — 奖励模型训练阶段训练奖励模型评价大模型的输出质量 Reinforcement LearningRL— 增强学习微调阶段利用RM对大模型进行参数更新 6. 在PyTorch中model.train()和model.eval()的作用 model.train()启用训练模式开启Dropout和BatchNorm的统计量更新。 model.eval()切换为评估模式关闭Dropout固定BatchNorm的均值和方差使用训练阶段的统计量。 7. 如何解决大模型推理延迟问题 模型优化量化FP16/INT8、剪枝、知识蒸馏。 系统优化动态批处理、KV Cache复用、内存高效注意力如FlashAttention。 硬件加速TensorRT编译、GPU并行如vLLM。 8. Transformer中前馈层FFN的作用 非线性部分增强模型表达能力 线性部分通过升维降维使模型捕捉复杂的特征和模式 总结FFN通过非线性变换如ReLU/SwiGLU增强模型表达能力对注意力层的输出进行特征映射和维度调整捕捉更复杂的模式。 9. 深度网络中loss除以10和学习率除以10等价吗 取决于优化器类型。对于带有自适应学习率的优化器(如Adam、RMSprop) loss缩放与学习率调整并不等价。对于经典的SGD和Momentum SGD将 loss乘以常数等价于将学习率乘以相同的常数。 10. Self-Attention的时间/空间复杂度 时间复杂度On^2*d a. Q和K点积nxd和dxn的计算复杂度是On2d b. 每行softmax的计算计算复杂度为Onn行为On2 c. 值矩阵和softmax结果点积nxd和nxn计算复杂度为On2d 11. 大模型幻觉如何缓解 大语言模型中的幻觉源于数据压缩data compression和不一致性inconsistency。由于许多数据集可能已经过时或不可靠因此质量保证具有挑战性。模型回答偏向于它们见过最多的内容。为了减轻幻觉可以采取以下方法 12. 主流大模型为何是Decoder-only 自回归生成Decoder天然适合逐Token生成Encoder-Decoder结构在训练时需对齐效率低。 训练效率Decoder-only架构参数量更少预训练成本低如GPT、LLaMA。 13. Attention为何除以√d 点积结果随维度d增大而幅值增加导致Softmax梯度消失。除以√d缩放点积值稳定训练。 14. BERT的Embedding相加合理性 Embedding相加等价于拼接后投影模型能自动学习各Embedding的交互。实验表明相加不影响效果且更高效。 15. 交叉熵与KL散度的含义 KL散度交叉熵-熵 参考链接 1. https://blog.csdn.net/HaoZiHuang/article/details/122616235 2.自然语言处理: 第二十四章 为什么在NLP领域中普遍用LayerNorm 而不是BatchNorm_layernorm 在nlp cv区别-CSDN博客 3. 深入解析 RLHFReinforcement Learning from Human Feedback-CSDN博客 4. 通用大模型训练过程必须经历的四个阶段_大模型训练阶段-CSDN博客
http://www.w-s-a.com/news/902530/

相关文章:

  • 吴忠网站建设公司中国建筑股份有限公司 官网
  • 深圳电商网站开发公司page list wordpress
  • 长安外贸网站建设顺德区网站设计建设企业
  • 临沂市建设局网站简介专业建设网站开发
  • 肇庆网站制作设计中国企业500强招聘
  • 苏州厂房装修宁波seo网络推广外包报价
  • 文山知名网站建设惠州哪家做网站好
  • 物流网站风格网站登录密码保存在哪里设置
  • 免费网站怎么建立icodepython基础教程
  • 无障碍网站建设方案wordpress 任务管理系统
  • iis5.1发布网站中小企业网络营销存在的问题研究论文
  • 阳泉软件定制网站建设网站可以做多语言的吗
  • 建设网站的目的及功能定位主要包括哪些内容百度关键词优化
  • 开一个小程序要多少钱宁波seo网络推广外包报价
  • 网站备案最新备案号电子商务网站建设的规章制度
  • wordpress制作单页网站导航页面鞍山信息港招聘信息
  • 屏蔽ip地址访问网站自己做衣服的网站
  • 网站建设 域名业务 邮箱哪里有网站建设中心
  • 免费网站赚钱重庆建设摩托车股份有限公司
  • 合肥水运建设工程监理网站自己买服务器能在wordpress建网站
  • wordpress积分商城主题整站seo排名要多少钱
  • 鲜花网站建设的利息分析网站设计与制作专业
  • 深圳网站建设排名做网站的公司高创
  • 杭州哪家做外贸网站全国物流网站有哪些平台
  • 企业网站建设个人博客鞍山晟宇网站建设
  • 广东省自然资源厅网站h5移动端网站模板下载
  • 网站建设和安全管理制度云南九泰建设工程有限公司官方网站
  • 网站的关键词和描述做外贸家纺资料网站
  • 绥化市建设工程网站招投标地址链接怎么生成
  • 网站制作设计发展前景网页链接制作生成二维码