当前位置: 首页 > news >正文

win2008iis7配置网站扬州市市政建设处网站

win2008iis7配置网站,扬州市市政建设处网站,做网站能设置关键词在百度中搜索到,wordpress页面可视化编辑器文章目录 训练数据集数据预处理神经网络模型模型训练正则化技术模型性能其他补充 训练数据集 模型主要使用2010年和2012年的 ImageNet 大规模视觉识别挑战赛#xff08;ILSVRC#xff09;提供的 ImageNet 的子集进行训练#xff0c;这些子集包含120万张图像。最终#xff… 文章目录 训练数据集数据预处理神经网络模型模型训练正则化技术模型性能其他补充 训练数据集 模型主要使用2010年和2012年的 ImageNet 大规模视觉识别挑战赛ILSVRC提供的 ImageNet 的子集进行训练这些子集包含120万张图像。最终模型还使用2009年秋天版本的完整 ImageNet 数据集进行了训练该数据集包含8900万张图像分属于10184个类别。数据集中一半的图像用于训练另一半用于测试。 数据预处理 图像裁剪因为模型需要固定大小的图像输入因此首先将数据集中的图像的短边缩放到 256 个像素再从得到的图像中裁剪出中间的 256 × 256 的图像块。像素处理从每张图像的像素中减去了所有图像中该像素的平均值。这样的处理即对像素数据进行了归一化可以加速模型的训练并使得训练更加稳定。数据增强 CPU运行的数据增强AlexNet 使用了两种计算量都很低的数据增强方式所以增强后的图像无需存储在计算机的硬盘中备用。数据增强过程使用 Python 进行编程在CPU上运行。由于数据增强无需使用正在训练模型的GPU因此作者们认为数据增强是“计算免费”的即不会影响模型的训练过程。两种数据增强方式 图像平移和水平翻转从 256 × 256 的图像中提取正中央和四个角的 224 × 224 的图片块及其水平翻转得到的图片块共十张并最终平均网络的 Softmax 对十张新图片的分类结果得到最终的分类结果。作者们发现如果不这样做模型就会产生严重的过拟合。改变图像中RGB通道的强度对整个 ImageNet 训练集中的RGB像素值执行主成分分析PCA作者们发现这种方式可以降低模型的分类错误率。 备注由于GPU技术的发展比CPU快多了因此如果从现在的角度看在CPU上做数据增强反而会成为模型效率的瓶颈。 神经网络模型 模型主要特点非常大且非常深是截至当时最大的卷积神经网络。模型参数量6000万 参数和 65万 神经元。模型基本结构 神经网络层构成包含五个卷积层一些卷积层带有最大池化层、三个全连接层和一个最终的 1000-way 的 Softmax 层。卷积核情况第一个卷积层的卷积核大小是 11 × 11 × 3个数为96个步长为5第二个卷积层的卷积核大小为 5 × 5 × 48个数为256个第三个卷积层的卷积核大小为 3 × 3 × 256个数为 384 个第四卷积层有 384 个大小为 3 × 3 × 192 的核第五个卷积层有 256个 3 × 3 × 192 的核。全连接层情况每个全连接层都有4096个神经元。 层叠池化方法作者们发现层叠池化可以略微降低模型分类的错误率但是也会使得模型会变得略微难以收敛。 备注 AlexNet 中包含的两个隐藏的全连接层是其性能的一大瓶颈也是其设计的缺陷。现在的CNN不会使用那么大的全连接层因此Dropout的使用减少了反而是循环神经网络系列的模型使用 Dropout 更多。层叠池化方法在后续的卷积神经网络中已经基本上没有继续使用了。 模型训练 激活函数使用 ReLU 作为激活函数文中称为一种非饱和神经元用于加速训练过程。作者们认为相较于当时主流的激活函数 tanhReLU 激活函数可以大大加快模型的训练过程。在模型中每一个卷积层和全连接层的输出都使用了 ReLU 激活函数进行处理。训练设备使用GPU进行高效的卷积操作。具体而言使用的是两个型号为 GTX 580 的GPU两个GPU的显存都是 3GB。分布式训练 基本模式受限于GPU的显存作者们将模型分布在两个GPU上进行训练。作者们将模型的卷积核对半分到两个GPU上且两个GPU只在模型中的某些层进行交互。作者们发现使用双GPU的网络训练时间比使用单GPU的网络更快一些。两个GPU训练结果的区别作者们最后发现第一个GPU对颜色敏感而第二个GPU对颜色不敏感并且每一次训练模型都是这样他们不清楚是什么原因。 优化器 优化器类型使用随机梯度下降优化器SGD进行模型训练。优化器超参数设置批次大小设置为 128动量设置为 0.9权重衰减设置为 0.0005。作者们发现少量的权重衰减非常重要因为减少了模型的训练误差。所有的层采用相同的学习率初始化为 0.01当验证错误率随着学习率的提高而升高时将学习率除以 10。现在设置模型的学习率时往往从小到大然后慢慢减小。 模型初始化 权重初始化以标准差为 0.01 的零均值高斯分布来初始化模型每一层的权重。偏置初始化用常数 1 来初始化第二、第四和第五卷积层以及全连接隐藏层中的神经元偏置剩余层的偏置初始化为 0。作者们认为这样的偏置设置可以为 ReLU 提供积极的输入来加速早期的学习。 迭代次数和训练时间迭代了 90 次总共花费了五到六天的时间进行模型训练。 备注 现在看起来使用 ReLU 作为激活函数并没有比其他的激活函数对模型训练有多强的加速效果只是单纯因为它足够简单。在目前看来将 AlexNet 拆分到两个GPU上进行训练这个非常工程化的细节并不是特别重要。并且实际上 在代码编写得好的情况下使用一个 GTX 580 GPU也是可以训练模型的。当年SGD并不是主流的模型训练器因为其调参过程相对而言比较困难。但是现在SGD已经是最主流的模型学习器。权重衰减实际上就是L2正则项其不是加在模型上而是优化算法上。现在设置模型优化器的学习率时往往从小到大然后慢慢再减小类似于一个余弦曲线。 正则化技术 Dropout 功能和原理用于缓解全连接层的过拟合现象。对每一个隐藏神经元有 0.5 的概率将其输出设置为 0使得它们不参与前向传播和反向传播过程。在测试阶段将所有神经元的输出都乘 0.5。作者们发现如果不使用 Dropout模型就会存在严重的过拟合现象但是 Dropout 也会使得模型需要的迭代次数翻倍。文中的观点作者们认为在处理模型的输入时增加了 Dropout 之后相当于每一次都是不同的神经网络这样迫使模型学习更加稳健的特征。 局部响应归一化一种正则化方法作者们发现使用了该归一化方法也可以降低模型分类的错误率。局部响应归一化层在第一和第二卷积层之后。 备注 目前的观点认为 Dropout 不是模型融合而是在线性模型上等价于一个L2正则项。它产生一个正则的效果但是无法构造出一个和它相同的正则方式。局部响应归一化也不是很重要后面基本上没有人继续使用。 模型性能 2010年 ImageNet 大规模图像识别挑战赛top-1 和 top-5 的错误率分别为 37.5% 和 17.0%显著优于之前最先进的模型。2012年 ImageNet 大规模图像识别挑战赛top-5 的错误率为 15.3%远高于第二名的 26.2% 的水平。特征向量使用如果两张图像通过模型后获得的特征向量之间的欧氏距离很小则可以认为这两张图像是相似的。未来展望作者们指出该模型的性能在出现了更快的GPU和更大的数据集时还可以继续提升。 其他补充 训练模型的启示 为了提升机器学习算法的性能我们可以收集更大的数据集、训练更强大的模型和使用更好的技术来防止过拟合。 数据集相关 在 AlexNet 提出的时代大部分有标注的图像数据集相对而言都比较小只有数万张图片例如 NORB、Caltech-101/256、CIFAR-10/100 等。LabelMe 是一个包含有数十万张全分割的图像的数据集。ImageNet 包含有1500万张有标注的高分辨率的图像这些图像分属于超过2200个类别。 模型相关 卷积神经网络具有先验知识来弥补图像数据集不够大的问题因为它们对图像的本质特征有假设。相较于相似规模的标准前馈神经网络卷积神经网络的参数量和连接数都少得多因此更加容易训练它们的理论最优性能仅仅略低于前馈神经网络。作者们发现模型的深度即神经网络中的层数非常重要移除任意一个卷积层都会导致模型性能的下降尽管卷积层的参数数量非常少。现在看来这个观点不太对因为虽然神经网络的深度非常重要但是移除一个神经网络层不一定会导致性能下降通过优化超参数可以达到相同的性能。ReLU 的一个理想特性是它不需要对输入进行归一化来防止饱和。只需要一些训练样本向 ReLU 产生了正输入那么学习就可以发生。卷积神经网络中的池化层用于汇总同一特征图中相邻神经元组的输出。最简单和最常用的降低过拟合的方式是使用保留标注的数据增强来人为地扩大数据集。结合多个不同模型的预测结果是一种降低测试错误率的好用的方法但是往往代价高昂。无监督预训练可以帮助神经网络获取较为优秀的早期权重本文中作者也提到虽然他们出于简化没有这么做但是他们认为这么做是有帮助的。神经网络的深度很重要但是宽度也很重要不能特别宽特别浅也不能特别深但是特别窄。过拟合是深度学习的一个派别现在研究者们又认为正则不是那么重要最重要的是模型本身的结构。 硬件相关 2007年 NVIDIA 推出了 CUDA 库使得用GPU训练模型变得普遍。当时的研究人员研究人员主要是使用 Matlab 进行编程。GPU对2D卷积进行了高度优化能够很好地促进大型卷积神经网络的训练过程。现代的GPU设计非常适合跨GPU并行因为它们可以直接读写其他GPU的显存而不需要以计算机的内存作为中介。 论文阅读相关 阅读机器学习和深度学习领域的论文对于工程上的细节如果不是需要复现则可以暂时忽略掉。论文的实验部分如果不是领域专家或者需要复现论文一般不用太了解这样可以节约时间。
http://www.w-s-a.com/news/825378/

相关文章:

  • 企业官方网站地址通了网站建设
  • 专题网站可以做什么怎么做网站滑动图片部分h5
  • 什么是网站建设外包html 门户网站
  • 资阳市建设局网站微信开发公司
  • wap建站程序源码可不可以异地建设网站
  • 优秀企业网站的特点网站标签名词
  • 建材网站建设案例淄博网站建设培训
  • 纯代码添加wordpress网站底部导航宝塔自助建站源码
  • 网站设计技术有哪些?青岛网站建设工作室
  • 网站怎样建设才叫人性化宣传
  • 济南网站制作方案做淘客网站备案
  • h5企业网站只做做php门户网站那个系统好
  • 长春阿凡达网站建设建网站如果不买域名别人能不能访问
  • 佛山网站建设策划东莞建设工程交易网
  • 制作公众号网站开发濮阳建网站
  • 屏南网站建设兼职旅游网站建设方案两百字
  • 最牛的网站建设网站建设的规模设想
  • 马云之前做的网站企业形象策划
  • ie9网站后台编辑器代发qq群发广告推广
  • 百度怎样建立一个网站嘉兴高端网站定制
  • 国外设计网站怎么进入电子网站建设前台设计
  • 中方建设局网站济南网站建设公司电子商务网站
  • 如何做网站编辑 沒技术济南企业做网站推广网站
  • 网站模板 百科北京中高风险地区最新名单最新
  • 高校网站建设前言做公众号的公司是什么公司
  • 网站备案怎么登陆短视频培训学校
  • 百度图片点击变网站是怎么做的北京市建设工程质量监督站网站
  • 在线建站模板重庆网站建设大概需要多少钱
  • 建设网站公司电话号码wordpress 即时通讯
  • 网站设计用的技术拓者吧室内设计网app