当前位置: 首页 > news >正文

湛江做网站电话深圳制作网站公司哪家好

湛江做网站电话,深圳制作网站公司哪家好,哪些网站可以做企业推广,商业网站开发需求Transformer显存占用分析 1 影响因素概述2 前向计算临时Tensor显存占用2.1 self-attention显存占用2.2 MLP显存占用 3 梯度和优化器显存占用3.1 模型训练过程两者显存占用3.2 模型推理过程两者显存占用 1 影响因素概述 模型训练框架#xff1a;例如pytorch框架的cuda context… Transformer显存占用分析 1 影响因素概述2 前向计算临时Tensor显存占用2.1 self-attention显存占用2.2 MLP显存占用 3 梯度和优化器显存占用3.1 模型训练过程两者显存占用3.2 模型推理过程两者显存占用 1 影响因素概述 模型训练框架例如pytorch框架的cuda context会占用大约几百MB显存与版本有关模型参数大小比如7B的模型以FP16格式要占用14GB显存前向计算过程中产生的临时Tensor这部分Tensor需要被临时保存以便在反向传播计算梯度时使用反向传播计算得到的梯度优化器状态全量微调的情况下梯度与参数一样大普通SGD没有动量一阶动量优化器的自身参数大小与模型大小一样比如momentum-SGD二阶动量优化器一般为模型大小的两倍比如Adam transformer系列的大模型最常用的是Adam优化器 2 前向计算临时Tensor显存占用 2.1 self-attention显存占用 这部分Tensor的大小和模型的每一层结构形状有关必须根据具体模型的每层形状来计算也和具体的batch_size大小以及输入数据input_data的大小有关。 输入矩阵I:首先计算 Q I ∗ W q Q I * W^{q} QI∗Wq K I ∗ W k K I * W^{k} KI∗Wk V I ∗ W v V I * W^{v} VI∗Wv输入I是临时Tensor假设输入I的形状为 [b, s, d]元素个数为 bsd占用显存大小为2bytes*bsd2bsd bytes. Q K T QK^{T} QKTQ和K是临时Tensor假设形状为 [b, s, d]元素个数为 bsd占用显存大小为22bytesbsd4bsd bytes。softmax A Q K T AQK^{T} AQKT输入形状[b, h, s, d] × [b, h, s, d]A矩阵输出形状为 [b, h, s, s]h是头个数。保存A矩阵占用的显存大小为2bytes* b h s 2 bhs^{2} bhs2 2 b h s 2 2bhs^{2} 2bhs2 bytes。dropout:需要保存一个mask矩阵mask矩阵的形状与A相同mask矩阵的元素为0或1用1个byte表示占用显存大小为 b h s 2 bhs^{2} bhs2 bytes。score* V加权score矩阵的形状与A相同占用显存大小为 2 b h s 2 2bhs^{2} 2bhs2 bytes。V矩阵形状[b, s, d]占用显存大小为2bytes*bsd2bsd bytes。该步骤占用显存大小为 2 b h s 2 2 b s d 2bhs^{2}2bsd 2bhs22bsd bytes。 W O W^{O} WO输出映射需要临时保存输入矩阵形状[b, s, d]占用显存大小为2bytes*bsd2bsd bytes。dropout需要保存一个mask矩阵mask矩阵的形状为上一步输出形状[b, s, d]mask矩阵的元素为0或1用1个byte表示占用显存大小为1bytes*bsdbsd bytes。 综上步骤self-attention块的占用显存大小为2bsd4bsd 2 b h s 2 2bhs^{2} 2bhs2 2 b h s 2 2bhs^{2} 2bhs2 2 b h s 2 2 b s d 2bhs^{2}2bsd 2bhs22bsd2bsd2bsd11bsd 5 b h s 2 5bhs^{2} 5bhs2 2.2 MLP显存占用 第一个线性层需要保存其输入输入形状为[b, s, d]占用显存大小为 2bytes*bsd2bsd bytes。激活函数需要保存其输入为第一步的输出形状为[b, s, 4d]占用显存大小为2bytes*4bsd8bsd bytes。第二个线性层需要保存其输入输入形状为[b, s, 4d]占用显存大小为2bytes*4bsd8bsd bytes。最后有一个dropout操作需要保存mask矩阵形状是上一步的输出形状[b, s, d]mask矩阵的元素为0或1用1个byte表示占用显存大小为1bytes*bsdbsd bytes。 综上步骤MLP的占用显存大小为2bsd8bsd8bsdbsd19bsd. 3 梯度和优化器显存占用 3.1 模型训练过程两者显存占用 参数占用显存 参数数目 × n n 2 : float16 n 4 : float32 n 8 : double64 其中float32是最常用的类型n是数据类型占用的bytes。 训练过程通常为模型参数前向传播反向传播计算梯度优化器更新以Adam优化器为例分析假如模型参数量为P 混合精度训练 1使用float16的模型参数进行前向传递和反向传播计算得到float16的梯度 2在优化器更新模型参数时使用float32的优化器状态、float32的梯度、float32的模型参数来更新模型参数。 3对于每个可训练模型参数模型参数在步骤1和步骤2分别是2bytes4bytes梯度在步骤1和步骤2分别是分别是2bytes4bytes优化器状态是2* 模型大小2*4bytes8bytes。 每个参数占用24248 20bytes。模型参数量M时总计20P bytes。 普通训练 上述步骤12均使用float32类型。对于每个可训练模型参数模型参数在步骤1和步骤2分别是4bytes4bytes梯度在步骤1和步骤2分别是分别是4bytes4bytes优化器状态是2* 模型大小2*4bytes8bytes。 每个参数占用44448 24bytes模型参数量M时总计24P bytes。 3.2 模型推理过程两者显存占用 推理占用显存主要是模型参数假如模型参数量为P使用float16来进行推理推理阶段模型参数占用的显存约2P bytes使用float32来进行推理推理阶段模型参数占用的显存约 4P bytes。 参考文章https://zhuanlan.zhihu.com/p/624740065?utm_id0
http://www.w-s-a.com/news/816149/

相关文章:

  • 网站建设服务中企动力建筑工程网络进度计划备注填写范例
  • 电子商务网站开发与建设试卷php网站开发专业
  • 运城网站制作路90江苏省网站备案系统
  • 唐山做企业网站实体门店管理系统
  • 网站优化推广教程深圳网站建设世纪前线
  • 网站建设专家哪家好兰州网络推广执行
  • 广东住房和城乡建设厅网站王芃增加网站收录
  • 北京网站建设手机app电子商务网红营销的劣势
  • 网站 营销型wordpress获取4条文章标题
  • 浦东区建设工程监督网站建立全国统一的突发事件信息系统
  • 做网站需要基础吗重庆市造价信息网
  • 我要建设公司网站大连培训网站建设
  • 网站建设校长信箱设计方案小程序报价开发
  • 电子网站建设ppt模板营销策划方案怎么写?
  • 什么网站收录排名最高济南能源建设网站
  • 深圳移动网站建设公司价格桂林做网站哪家公司好
  • 互联网网站名字网站合作建设合同
  • 舟山高端网站设计广州优化排名推广
  • 哪个网站做免费广告好上海人才网站
  • cn域名做网站竞价推广代理
  • 省建设干部培训中心网站网站地图1 500 怎么做
  • 制作一个网站需要哪些人网站建设经营服务合同
  • 山东省住房和城乡建设厅官方网站网易发布广州
  • 长沙设计网站效果设计师灵感网站
  • 做网站php都用什么框架把asp.net写的网站别人怎么访问
  • 网站建设捌金手指下拉六正规的代运营公司
  • 自己申请网站空间冀州建网站
  • 哈尔滨旅游团购网站建设江苏建设工程建设网
  • 在郑州做网站茶叶网站建设网页设计制作
  • 58做网站吗南京有关制作网站的公司