当前位置: 首页 > news >正文

网站建设维护 天博网络简单网页制作代码html

网站建设维护 天博网络,简单网页制作代码html,湖北做网站的,江苏建设服务信息网站本节主要关注卷积神经网络发展过程中具有里程碑意义的基础模块#xff0c;了解它们的原理和设计细节 1. 批归一化 在机器学习中#xff0c;一般会假设模型的输入数据的分布是稳定的。如果这个假设不成立#xff0c;即模型输入数据的分布发生变化#xff0c;则称为协变量偏…本节主要关注卷积神经网络发展过程中具有里程碑意义的基础模块了解它们的原理和设计细节 1. 批归一化 在机器学习中一般会假设模型的输入数据的分布是稳定的。如果这个假设不成立即模型输入数据的分布发生变化则称为协变量偏移。模型的训练集和测试集的分布不一致或者模型在训练过程中输入数据的分布发生变化这些都属于协变量偏移现象。 同样对于一个复杂的机器学习系统在训练过程中一般也会要求系统里的各个子模块的输入分布是稳定的如果不满足则称为内部协变量偏移。对于深度神经网络其在训练过程中每一层的参数都会随之更新。以第 i 层为例其输入数据与之前所有层第 1 层到第 i - 1 层的网络参数取值都有很大关系在训练过程中如果之前层的参数被更新后第 i 层的输入数据的分布必然也会发生变化此即为内部协变量偏移。网络越深这种现象越明显。 内部协变量偏移会给深度神经网络的训练过程带来诸多问题 网络每一层需要不断适应输入数据的分布的变化这会影响学习效率并使学习过程变得不稳定。网络前几层参数的更新很可能使得后几层的输入数据变得过大或者过小从而掉进激活函数的饱和区导致学习过程过早停止。为了尽量降低内部协变量偏移带来的影响网络参数的更新需要更加谨慎在实际应用中一般会采用较小的学习率避免参数更新过快而这会降低收敛速度。在之前的网络训练过程中一般会采用非饱和型激活函数如 ReLU、精细的网络参数初始化、保守的学习率等方法来降低内部协变量偏移带来的影响。这些方法会使网络的学习速度太慢并且最终效果也特别依赖于网络的初始化。 批归一化就是为了解决上述问题而提出的它的主要作用是确保网络中的各层即使参数发生了变化其输入/输出数据的分布也不能产生较大变化从而避免发生内部协变量偏移现象。采用批归一化后深度神经网络的训练过程更加稳定对初始值不再那么敏感可以采用较大的学习率来加速收敛。 批归一化可以看作带参数的标准化具体公式为 y ( k ) γ ( k ) x ( k ) − μ ( k ) ( σ ( k ) ) 2 ε β ( k ) (1.1) y^{(k)}\gamma^{(k)} \frac{x^{(k)}-\mu^{(k)}}{\sqrt{\left(\sigma^{(k)}\right)^{2}\varepsilon}}\beta^{(k)}\tag{1.1} y(k)γ(k)(σ(k))2ε ​x(k)−μ(k)​β(k)(1.1) 其中 x ( k ) y ( k ) x^{(k)}y^{(k)} x(k)y(k)分别是原始输入数据和批归一化后的输出数据 μ ( k ) \mu^{(k)} μ(k)和 σ ( k ) \sigma^{(k)} σ(k)分别是输入数据的均值和标准差在 mini-batch 上 β ( k ) \beta^{(k)} β(k)和 γ ( k ) \gamma^{(k)} γ(k)分别是可学习的平移参数和缩放参数上标k表示数据的第k维批归一化在数据各个维度上是独立进行的 ε \varepsilon ε是为防止分母为 0 的一个小量。可以看到在批归一化过程中设置了两个可学习的参数 β \beta β和 γ \gamma γ它们有如下作用。 保留网络各层在训练过程中的学习成果。如果没有 β \beta β和 γ \gamma γ批归一化退化为普通的标准化这样在训练过程中网络各层的参数虽然在更新但是它们的输出分布却几乎不变始终是均值为 0、方差为 1从而使得网络难以学习到有效的特征表示。通过引入 β \beta β和 γ \gamma γ可以让网络在标准化后的数据上进行适当的平移和缩放从而保留各层在训练过程中的学习成果。保证激活单元的非线性表达能力。上面提到没有 β \beta β和 γ \gamma γ批归一化的输出分布始终是均值为 0、标准差为 1。此时如果激活函数采用诸如 Sigmoid、Tanh 等函数则经过批归一化的数据基本上都落在这些激活函数的近似线性区域没能利用上它们的非线性区域这会极大地削弱模型的非线性特征提取能力和整体的表达能力。添加 β \beta β和 γ \gamma γ参数后批归一化的数据就可以进入激活函数的非线性区域。 使批归一化模块具有自我关闭能力。若 β \beta β和 γ \gamma γ分别取数据的均值和标准差则可以复原初始的输入值即关闭批归一化模块。因此当批归一化导致特征分布被破坏或者使网络泛化能力减弱时可以通过这两个参数将其关闭。 至于批归一化在网络中的位置直觉上看无论是放在激活层之前还是之后都有一定道理。 把批归一化放在激活层之前可以有效避免批归一化破坏非线性特征的分布另外批归一化还可以使数据点尽量不落入激活函数的饱和区域缓解梯度消失问题。由于现在常用的激活函数是 ReLU它没有 Sigmoid、Tanh 函数的那些问题因此也可以把批归一化放在激活层之后避免数据在激活层之前被转化成相似的模式从而使得非线性特征分布趋于同化。 在具体实践中原始论文是将批归一化放在激活层之前的但学术界和工业界也有不少人曾表示倾向于将批归一化放在激活层之后如论文共同作者 Christian Szegedy、Keras 作者 Francois Cholle、知名数据科学平台 Kaggle 的前首席科学家 Jeremy Howard 等人。从近两年的论文来看有一大部分是将批归一化放在激活层之后的如 MobileNet v2、ShuffleNet v2、NASNet - A。批归一化究竟应该放在什么位置仍是一个存争议的问题。 2. 全连接层 用于分类任务的卷积神经网络其前面若干层一般是卷积层、池化层等但网络末端一般是几层全连接层。这是因为一方面卷积层具有局部连接、权值共享的特性其在不同位置是采用相同的卷积核进行特征提取的。也就是说卷积层的特征提取过程是局部的卷积核尺寸一般远小于图片尺寸且是位置不敏感的。而且参考文献[22]中的实验表明即使强迫卷积层学习如何对位置信息进行编码其效果也不理想。 因此如果整个网络全部采用卷积层包括池化层等网络也许能知道图片中不同位置有哪些元素高层语义信息但无法提取这些元素之间的关联关系包括空间位置上的相关性、语义信息上的相关性。而对于分类任务不仅需要考虑一张图像中的各个元素还需要考虑它们之间的关联关系全局信息。举例来说假设要做人脸检测任务仅仅找出图片上的眼、鼻、口等人脸元素是不够的它们之间的相对位置关系也非常重要如果一张图片中人脸的各个器官被随机打乱我们显然不会认为这还是一张人脸。 为了提取不同元素之间的关联关系我们需要一个全局的、位置敏感的特征提取器而全连接层就是最方便的选择其每个输出分量与所有的输入分量都相连并且连接权重都是不同的。当然卷积层也不是完全不能对位置信息进行编码如果使用与输入特征图同样尺寸的卷积核就可以但这实际上等价于一个全连接层卷积的输出通道数目对应着全连接层的输出单元个数。 从另一方面来理解多个全连接层组合在一起就是经典的分类模型——多层感知机。我们可以把卷积神经网络中前面的卷积层看作是为多层感知机提取深层的、非线性特征。从这个角度讲最后几层也可以接其他的分类模型如支持向量机等但这样就脱离了神经网络体系处理起来不太方便不利于模型进行端到端的训练和部署。 最近几年分类网络在卷积层之后、最后一层之前通常采用全局平均池化它与全连接层有着相似的效果可以提取全局信息并且具有如下优点。 参数量和计算量大大降低。假设输入特征图的尺寸为(w\times h)通道数为(c)则全局平均池化的参数量为零计算量仅为(c\times w\times h)而如果选择接一个输出单元数为(k)的全连接层则参数量和计算量均为(c\times w\times h\times k)。对于 AlexNet、VGGNet 等这种全连接层单元数动辄 1024 或 4096 的网络全局平均池化与普通卷积层的计算量能相差千余倍。具有较好的可解释性比如我们可以知道特征图上哪些点对最后的分类贡献最大。 3. 瓶颈结构 瓶颈结构是在 GoogLeNet/Inception-v1 中提出的而后的 ResNet、MobileNet 等很多网络也采用并发展了这个结构。瓶颈结构的初衷是为了降低大卷积层的计算量即在计算比较大的卷积层之前先用一个 1×1 卷积来压缩大卷积层输入特征图的通道数目以减小计算量在大卷积层完成计算之后根据实际需要有时候会再次使用一个 1×1 卷积来将大卷积层输出特征图的通道数目复原。由此瓶颈结构一般是一个小通道数的 1×1 卷积层接一个较大卷积层后面可能还会再跟一个大通道数的 1×1 卷积层可选。 瓶颈结构是卷积神经网络中比较基础的模块它可以用更小的计算代价达到与之前相似甚至更好的效果因为瓶颈结构会增加网络层数所以特征提取能力可能也会有相应提升。瓶颈结构基本上可以用于所有的卷积神经网络中场景包括物体检测和分割、生成式对抗网络等大方向以及诸如人脸匹配、再识别、关键点检测等细分领域。 沙漏结构也是卷积神经网络中比较基础的模块它类似于瓶颈结构但尺度要更大涉及的层也更多。沙漏结构一般包括以下两个分支。 自底向上bottom-up分支利用卷积、池化等操作将特征图的尺寸逐层压缩通道数可能增加类似于自编码器中的编码器encoder。自顶向下top-down分支利用反卷积或插值等上采样操作将特征图的尺寸逐层扩大通道数可能降低类似于自编码器中的解码器decoder。 参考文献[24]用一个具有沙漏结构的网络来解决人体姿态估计任务其基本单元如图 1.19 所示整个网络则由多个沙漏结构堆叠而成如图 1.20 所示。此外在物体检测任务中沙漏结构也有着大量应用如 TDMTop-Down Modulation、FPNFeature Pyramid Network、RONReverse connection with Objectness prior Networks、DSSDDeconvolutional Single-Shot Detector、RefineDet 等模型它们的网络结构如图 1.21 所示。图中的 RFBReverse Fusion Block是将上采样后的深层特征和浅层特征进行融合的模块。在这些应用中沙漏结构的作用一般是将多尺度信息进行融合同时沙漏结构单元中堆叠的多个卷积层可以提升感受野增强模型对小尺寸但又依赖上下文的物体如人体关节点的感知能力。
http://www.w-s-a.com/news/853913/

相关文章:

  • 建设银行积分网站观光农业规划设计
  • jsp项目个人网站开发用织梦做网站有什么公司会要
  • 和田网站制作无限动力网站
  • 长沙口碑好网站建设企业网站 需求
  • 哪个网站建设公司wordpress陌陌主题
  • 湖滨区建设局网站北京国际建设集团网站
  • 做服装团购有哪些网站wordpress 端口修改
  • 上海礼品定制网站响应式网站模版建站
  • 那种自行提取卡密的网站怎么做网站攻击
  • 洛阳免费网站建设qq是哪家公司开发的软件
  • 怎么做网站网页wordpress网址导航
  • 专业微信网站建设公司首选公司wordpress自动分类插件
  • 网站设计登录界面怎么做网站突然排名没了
  • wordpress 人物页面seo优化公司信
  • 高端网站建设报价网站建设需要硬件设备
  • 做国际物流在哪些网站找客户营销qq怎么申请
  • 网站做推广百度好还是360好科技厅
  • 网站开发工具排名万户网络建一个网站虽要多少钱
  • 用凡科做的网站要钱吗WordPress城市切换
  • 制作一个门户网站需要多少钱营销型网站特征
  • 手机网站 多html中国建设银行网站包头分行
  • 哪个网站做免费广告好招牌图片效果图设计制作
  • 网站建设优化服务机构苏州市做网站
  • 网站如何优化流程企业网站管理系统视频教程
  • 我想克隆个网站 怎么做贵州住房和城乡建设厅官网
  • 网站建设项目前景上海今天新闻综合频道
  • 做网站推销的如何谈客户wordpress怎么做商城
  • 摄影素材库网站服装页面设计的网站
  • 如何用国外网站做头条做个游戏app的费用大概多少
  • 网站 形象入口页福州网站建设网络公司排名