当前位置: 首页 > news >正文

静态网站可以做哪些佛山建设专业网站

静态网站可以做哪些,佛山建设专业网站,免费的wordpress分类在哪设置,网站规划建设方案训练深层神经网络是十分困难的#xff0c;特别是在较短的时间内使它们收敛更加棘手。而本节的批量规范化#xff08;batch normalization#xff09; 可以持续加速深层网络的收敛速度结合下节会介绍道德残差块#xff0c;批量规范化使得研究人员能够训练100层以上的网络 1.…训练深层神经网络是十分困难的特别是在较短的时间内使它们收敛更加棘手。而本节的批量规范化batch normalization 可以持续加速深层网络的收敛速度结合下节会介绍道德残差块批量规范化使得研究人员能够训练100层以上的网络 1. 训练深层网络 为什么要批量规范化层呢下面回顾一下训练神经网络时出现的实际挑战首先数据的预处理方式通常会对最终结果产生巨大影响。在前面我们预测房价实战中我们第一步是标准化输入特征使其均值为 0方差为 1。这种标准化可以很好地配合我们的优化器因为它可以将参数的量级进行同一对于 MLP 或 CNN。当我们训练时中间层的变量可能有更广的变化范围无论是沿着从输入到输出的层跨同一层中的单元或是随着时间的推移模型参数随着训练更新变幻莫测批量规范化的发明者非正式地假设这些变量分布中的这种偏移可能会阻碍网络收敛。如果一个层的可变值是另一个层的100倍这可能需要学习率进行补偿更深层的网络很复杂容易过拟合这意味着正则化变得更加重要批量规范化可以应用于单个可选层也可以应用到所有层。原理如下在每次训练迭代中我们首先规范化输入即通过减去均值并除以标准差其中两者均基于当前小批量处理。接下来我们应用比例系数和比例偏移。由于是基于批量统计的标准化所以i叫批量规范化如果我们尝试使用大小为1的小批量应用批量规范化我们将无法学到任何东西。这是因为在减去均值之后每个隐藏单元将为0。 所以只有使用足够大的小批量批量规范化这种方法才是有效且稳定的。 请注意在应用批量规范化时批量大小的选择可能比没有批量规范化时更重要。 在训练过程中中间层的变化幅度不能过于剧烈而批量规范化将每一层主动居中并将它们重新调整为给定的平均值和大小 由于某些尚未被明确的原因优化中各种噪声源通常会导致更快的训练和较少的过拟合这种变化似乎是正则化的一种形式另外批量规范化层在”训练模式“通过小批量统计数据规范化和“预测模式”通过数据集统计规范化中的功能不同。 在训练过程中我们无法得知使用整个数据集来估计平均值和方差所以只能根据每个小批次的平均值和方差不断训练模型。 而在预测模式下可以根据整个数据集精确计算批量规范化所需的平均值和方差。下面来看是如何在实践中工作的 2. 批量规范化层 回想一下批量规范化和其他层之间的一个关键区别是批量规范化在完整的小批量上运行因此我们不能像以前在引入其他层时那样忽略批量大小。我们在下面讨论这两种情况全连接层和卷积层他们的批量规范化实现略有不同。 2.1 全连接层 2.2 卷积层 对于卷积层可以在卷积层之后和非线性激活函数之前进行批量规范化每个通道都有自己的拉伸和偏移参数两个参数都是标量假设我们的小批量包含 m 个样本并且对于每个通道卷积的输出具有高度 p和宽度 q。 那么对于卷积层我们在每个输出通道的 mpq 个元素上同时执行每个批量规范化。 因此在计算平均值和方差时我们会收集所有空间位置的值然后在给定通道内应用相同的均值和方差以便在每个空间位置对值进行规范化。 2.3 预测过程中的批量规范化 批量规范化在训练模式和预测模式下的行为通常不同将训练好的模型用于预测时我们不再需要样本均值中的噪声以及在微批次上估计每个小批次产生的样本方差了我们可能需要使用我们的模型对逐个样本进行预测。 一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差并在预测时使用它们得到确定的输出和暂退法一样批量规范化层在训练模式和预测模式下的计算结果也是不一样的 3. 从零开始实现 下面是实现代码 我们现在可以创建一个正确的BatchNorm层。 这个层将保持适当的参数拉伸gamma和偏移beta,这两个参数将在训练过程中更新我们的层将保存均值和方差的移动平均值以便在模型预测期间随后使用 4. 使用批量规范化层的LeNet 为了更好地理解BatchNorm下面我们将其应用于LeNet模型。批量规范化是在卷积层或全连接层之后、相应的激活函数之前应用的。 我们再在Fashion-MNIST数据集上训练网络但不同的是学习率大得多下面的补充内容会提到为什么可以上更大的学习率 5. 简明实现 我们可以直接使用深度学习框架中定义的BatchNorm。 代码看起来几乎与我们上面的代码相同。 6. 补充 下面是我在b站上看的一个视频的笔记看了之后感觉清晰了很多https://www.bilibili.com/video/BV12d4y1f74C/?spm_id_from333.880.my_history.page.clickvd_sourcebab99a4bc7d540abf82733d55fa02cca在网络学习的过程中全一层的输出就是后一层的输入因此由于参数的更新每层的输入分布都在发生变化这会导致网络很难收敛 而为了能够收敛那么就需要① 学习率不能太高。 ② 参数初始化准确。 ③ 网络层数不能太多。而神经网络的研究人员发现这个现象是由于每层分布的差异过大且无法预测而导致的。那么如果让每一个batch在每一层中都服从类似的分布就可以解决这一的问题了 加上伽马和贝塔是因为我们不想每层输入的分布都相同 在加上了Batch Normalization那么我们就可以① 使用较大的学习率。 ② 参数初始化不敏感。 ③ 加快网络训练。在测试推理阶段我们仍然可以使用训练得到的伽马和贝塔两个参数。但是训练集和测试集的样本分布不完全一致并且我们可能只使用一个样本进行测试无法计算均值和标准差。因此我们需要保存并使用训练过程中的结果来辅助运算假设我们有30个样本每五个样本构成一个batch进行训练完整遍历一次训练集就需要六个batch那么对于第一层神经网络来说我们会得到六个均值的历史数值那么接下来通过指数加权获得这六个均值的平均值下面的m可以看作是对历史的保留非常类似于随机梯度下降中动量的概念在torch框架中也直接将这个变量命名为 momentum默认值为0.1 Batch Normalization可以加速神经网络收敛。但是①仅在样本数量较多时有效。② 对RNN或序列数据性能较差。 ③ 分布式运算时影响效率
http://www.w-s-a.com/news/492889/

相关文章:

  • 信誉好的营销网站建设徐州市铜山新区建设局网站
  • 建行网站关于我们山西seo和网络推广
  • 1m带宽做网站怎么样深圳网站建设制作开发公司
  • 网站建设 服务内容 费用郴州网站建设公司哪里有
  • 网站关键词重要性育才网站建设
  • 网络安全形势下怎么建设学校网站wordpress最新主题下载
  • 自己建设网站需要什么条件.gs域名做网站怎么样
  • 网上做公益的网站推广手机卡返佣平台
  • 网站是公司域名是个人可以南京建设银行官方网站
  • 做互联网网站的会抓百度网盟推广 网站
  • 商务网站开发设计结论微信报名小程序怎么制作
  • 网站建设销售简历wordpress七比2
  • 制作网站报价工程项目查询哪个网站
  • 深圳移动网站建设制作公司网站建设的认识
  • 网站建设脚本语言有哪些想开网店哪个平台好
  • 视频网站用什么做的好深圳的小程序开发公司
  • 南京网站定制开发商城网站免费模板
  • 青海学会网站建设公司照片组合拼图
  • 中国建设银行福清分行网站爱站网权重查询
  • 外贸通网站建设网站建设7个主要流程图
  • 元气森林网络营销方式医疗网站优化怎么做
  • 手机网站制作报价表做网站公司做网站公司
  • 湖州网站设计吉林网站建设哪家好
  • 做存储各种环境信息的网站使用tag的网站
  • 阿里云用ip做网站网站开发员属于
  • 外链网盘下载南宁seo推广优化
  • 网站的推广方案有哪些此网站可能有
  • wordpress更改链接后网站打不开一键生成个人网站
  • 网站建设后台有哪些东西前端开发培训一般多少钱
  • 高端建设网站公司网站开发 源码