当前位置: 首页 > news >正文

定制网站开发食道里感觉有东西堵做 视频在线观看网站

定制网站开发食道里感觉有东西堵,做 视频在线观看网站,酒店如何做好线上营销,php网站开发结构ResNet (Residual Network) 此网络于2015年#xff0c;国人何先生提出#xff0c;用于解决随着深度学习的层数加深造成的网络退化现象和梯度消失、梯度爆炸。 问题1 退化现象 当深度学习的各项指标能够随着训练轮数收敛的情况下#xff0c;网络的层数增强未能像理论一样国人何先生提出用于解决随着深度学习的层数加深造成的网络退化现象和梯度消失、梯度爆炸。 问题1 退化现象 当深度学习的各项指标能够随着训练轮数收敛的情况下网络的层数增强未能像理论一样抽象出更具有语义的特征从而比层数少的网络准确率高。反而准确率是下降的。 可以看到这并不是因为过拟合引起的测试准确率下降因为训练时同样效果不佳。 解决方案采用两种residual网络结构来加强数据原始数据与最终输出特征的关联度弱化层之间的强联系允许跳跃链接。 下图中虚线代表采用了residual的深度学习网络可以看到良好的解决了网络退化的问题。 BasicBlock和Bottleneck 左侧残差结构称为 BasicBlock右侧残差结构称为 Bottleneck。 从参数量的对比上来看假设我们都是输入256通道的数据那么 CNN参数个数 卷积核尺寸×卷积核深度 × 卷积核组数 卷积核尺寸 × 输入特征矩阵深度 × 输出特征矩阵深度 BasicBlock,参数的个数是256×256×3×3256×256×3×31179648 Bottleneck,参数的个数是1×1×256×643×3×64×641×1×256×6469632 考虑参数量通常在深层时会采用三层的resnet结构 Shortcut connection 上图中的“跨层链接”称为短路链接Shortcut connection。 短路连接 H(x) F(x) x 这里需要逐元素加和如果 F(x) 与 x 的通道数相同则可以直接相加对应实线如果 F(x) 与 x 的通道数不同则需要进行维度匹配。 原文的标注中已说明conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层残差结构都是虚线残差结构。因为这一系列残差结构的第一层都有调整输入特征矩阵shape的使命将特征矩阵的高和宽缩减为原来的一半将深度channel调整成下一层残差结构所需要的channel 原文中的shortcut三种实现方案。 A“zero-padding shortcuts are used for increasing dimensions, and all shortcuts are parameterfree” 两者维度通道数不同可对增加的维度使用零填充使用全0填充缺少的维度, 然后concat低维数据从而升到高维。 B“projection shortcuts are used for increasing dimensions, and other shortcuts are identity” 两者维度通道数不同可采用论文中提到的公式H(x) F(x) Wx来匹配维度其中 W 代表线性投影使用 1x1 卷积其他shortcuts则为恒等映射维度相同时。 C“all shortcuts are projections” 无论维度是否相同对于所有的shortcuts都使用 1x1 卷积来匹配维度。 问题2 梯度消失、梯度爆炸 梯度消失若每一层的误差梯度小于1反向传播时网络越深梯度越趋近于0 梯度爆炸若每一层的误差梯度大于1反向传播时网络越深梯度越来越大 解决方案Batch normalization批(数据)归一化 Batch Normalization是指批标准化处理将一批数据的所有的feature map满足均值为0方差为1的分布规律。它不仅可以加快了模型的收敛速度而且更重要的是在一定程度缓解了深层网络中“梯度弥散特征分布较散”的问题。 在BN出现之前数据归一化一般都在数据输入层对输入数据进行求均值以及求方差做归一化。 BN的出现使我们可以在网络中任意一层对数据归一化处理。我们现在所用的优化方法大多都是min-batch SGD所以我们的归一化操作就成为Batch Normalization。 BN中的数据归一化是在正态分布式的归一化的基础上进行的修改步骤如下 1.求每一个训练批次数据的均值 2.求每一个训练批次数据的方差 3.使用均值和方差对该批次的训练数据做归一化获得01正态分布。其中ε是为了避免除数为0时所使用的微小正数。 由于归一化后的xi基本会被限制在正态分布下使得网络的表达能力下降。为解决该问题我们引入两个新的参数γ,β。 γ是尺度因子β是平移因子在训练时网络学习得到。 4.尺度变换和偏移将xi乘以γ调整数值大小再加上β增加偏移后得到yi。 1-3步如下 左图是没有经过任何处理的输入数据曲线是sigmoid函数如果数据在梯度很小的区域那么学习率就会很慢甚至陷入长时间的停滞。若是使用均值和方差进行归一化则如右图所示这会让数据总是在中心一片梯度最大的区域这是对抗梯度消失的一种有效手段(ReLU)如果对于多层数据做归一化则可将数据分布忽略提高收敛速度。 BN方法的第四步 为什么要有第四步尺度变换与偏移 减均值除方差得到的分布是正态分布不能认为这样得到的正太分布就是最符合我们训练样本特征的分布的函数曲线。比如数据本身就很不对称或者激活函数未必是对方差为1的数据最好的效果比如Sigmoid激活函数在-1~1之间的梯度变化不大那么非线性变换的作用就不能很好的体现。也就是说减均值除方差操作后可能会削弱网络的性能。因此要引入第四步改变方差大小和均值位置使得新的分布更切合数据的真实分布保证模型的非线性表达能力。 BN的本质第四步操作和均值方差的关系是什么 而第四步的本质或者说BN的本质是利用优化改变方差大小和均值位置使得新的分布更切合数据的真实分布保证模型的非线性表达能力。BN的极端的情况就是这两个参数等于mini-batch的均值和方差那么经过batch normalization之后的数据和输入完全一样当然一般的情况是不同的。 预测时BN所使用的均值和方差来源于那里 在训练时我们会对同一批的数据的均值和方差进行求解进而进行归一化操作。对于预测阶段时所使用的均值和方差也是来源于训练集。在模型训练时我们记录下每个batch的均值和方差训练完毕后求整个训练样本的均值和方差期望值作为进行预测时进行BN的的均值和方差。
http://www.w-s-a.com/news/593258/

相关文章:

  • 南通做网站找谁重庆网络推广网站推广
  • ps网站主页按钮怎么做怎样做网站的用户分析
  • 哪个网站做黑色星期五订酒店活动公司网络营销推广软件
  • 岳阳新网网站建设有限公司网页设计基础考试题目
  • 辽宁响应式网站费用海外平台有哪些
  • 杨凌规划建设局网站网站后台建设怎么进入
  • 有赞商城网站建设企业管理咨询是做什么的
  • 提供衡水网站建设中国石化工程建设有限公司邮政编码
  • 大芬地铁站附近做网站工业设计公司报价
  • 建设网站最强永年网站建设
  • 网站分站代理加盟wordpress国内工作室主题
  • 东营远见网站建设公司服装网站建设内容
  • 互助平台网站建设费用百度seo优化怎么做
  • lol英雄介绍网站模板工商局网上注册
  • 电商网站运营策划什么样的网站容易做seo
  • 网站备案需要什么流程怎么创建小程序卖东西
  • 陇西网站建设 室内设计持啊传媒企业推广
  • 连云港做网站制作首选公司如何让单位网站做防护
  • wordpress企业网站源码开发网站用什么工具做设计
  • 网站负责人不是法人seo神马网站推广器
  • 网站建设绩效考核方案wordpress支付宝付款
  • 高要区住房和城乡建设局网站如何网上注销自己的公司
  • 哪种技术做网站容易论文答辩图片做记录片的是哪个网站
  • 怎样在微信中做网站网站的备案号在哪
  • 返利淘网站怎么做wordpress htnl短代码
  • 网站 手机 appwordpress管理账户
  • 徐州网站建设 网站制作做招商网站的前景怎么样
  • 网站开发就业岗位鹧鸪哨网站1v1深度开发
  • 在线手机动画网站模板网站登录注册怎么做
  • 苏州品牌网站设计晋江论坛兔区是什么