电子商务网站建设课设心得体会,网页的六个基本元素,给女朋友做网站,重庆企业网站建设本文持续更新~~ 本文整理了近些年来常见的卷积神经网络结构#xff0c;涵盖了计算机视觉领域的几大基本任务#xff1a;分类任务、检测任务和分割任务。对于较复杂的网络#xff0c;本文只会记录其中的核心模块以及重要的网络设计思想#xff0c;并不会记录完整的网络结构。… 本文持续更新~~ 本文整理了近些年来常见的卷积神经网络结构涵盖了计算机视觉领域的几大基本任务分类任务、检测任务和分割任务。对于较复杂的网络本文只会记录其中的核心模块以及重要的网络设计思想并不会记录完整的网络结构。 有一些网络结构是通用的可以用于分类、检测和分割任务中的任意一个本文就选取了其中一个有代表性的任务进行描述。 目录分类任务1.VGG2. Inception v13. Inception V24. ResNet5. DenseNet检测任务1. FPN2. PAN分割任务1. FCN2. U-Net3. SegNet4. PSPNet参考文章分类任务
1.VGG 论文地址https://arxiv.org/abs/1409.1556 论文提出了6种不同的VGG网络最常用的是VGG16。VGG16采用了5组13层卷积和5层最大池化并且使用3层全连接和1层Softmax完成分类任务。 VGGNet使用的卷积核全部为3×33×33×3优点在于两个3×33×33×3的卷积核和一个5×55×55×5的卷积核的感受野大小一致但参数量更少两个3×33×33×3的卷积核比一个5×55×55×5的卷积核的非线性表达能力更强因为其拥有两个激活函数可提高网络的学习能力。 2. Inception v1 论文地址https://arxiv.org/pdf/1409.4842 通过设计一个稀疏网络结构但是能够产生稠密的数据既能增加神经网络表现又能保证计算资源的使用效率。 共4个通道其中3个卷积通道分别使用1×11×11×1、3×33×33×3、5×55×55×5的卷积核保证了每个通道的感受野大小不同从而获得不同尺度的特征1个池化通道采用最大池化操作以减少空间大小降低过度拟合。使用1×11×11×1的卷积核进行降维减小了特征图的维度。 3. Inception V2 论文地址https://arxiv.org/pdf/1502.03167 在不增加过多计算量的同时提高网络的表达能力因而修改 Inception 的内部计算逻辑提出了比较特殊的卷积计算结构。使用3×33×33×3的卷积核代替5×55×55×5的卷积核用小卷积核代替大卷积核分解卷积将n×nn×nn×n的卷积分解为1×n1×n1×n n×1n×1n×1进一步降低了参数量在保持相同感受野的同时减少参数量。 4. ResNet 论文地址https://arxiv.org/abs/1512.03385 ResNet可以说是卷积神经网络的一个里程碑式的结构自从ResNet被提出后此后的分类、检测和分割等任务大都使用ResNet作为骨干网络进行特征提取。 ResNet的思想比较简单引入了一个残差结构来解决梯度消失的问题。普通网络需要直接拟合输出H(x)H(x)H(x)而ResNet通过引入一个shortcut连接将需要拟合的映射变为F(x)H(x)−xF(x)H(x)-xF(x)H(x)−x。即相对于直接优化潜在映射H(x)H(x)H(x)优化残差映射F(x)F(x)F(x)更容易。 5. DenseNet 论文地址https://arxiv.org/abs/1608.06993 DenseNet通过建立前面所有层与后面层的密集连接即直接将前面所有层的特征Concat后传到下一层实现了特征在通道维度上的复用。 DenseNet采用了激活函数在前卷积层在后的顺序与一般的卷积网络不同每个BottleNeck中1×11×11×1大小的卷积的作用是固定输出通道数达到降维的作用。 检测任务
1. FPN 论文地址https://arxiv.org/abs/1612.03144 FPNFeature Pyramid Network特征图金字塔网络主要解决的是物体检测中的多尺度问题通过简单的网络连接改变在基本不增加原有模型计算量的情况下大幅度提升了小物体检测的性能。FPN通过高层特征进行上采样对高层特征进行放大即卷积后的特征数最少的那一层和低层特征进行自顶向下的连接反向卷积而且每一层都会进行预测。 算法大致结构如下一个自底向上的线路一个自顶向下的线路横向连接lateral connection。 2. PAN 论文地址https://arxiv.org/abs/1803.01534 PANPath Aggregation Network路径聚合网络采用自底向上路径增强的方法在较低的层次上使用精确的定位信号来增强整个特征层次结构缩短了较低层次与最上层特征之间的信息路径。提出了自适应特征池它将特征网格和所有特征层连接起来使每个特征层中的有用信息直接传播到下面的建议子网络。 分割任务
1. FCN 论文地址https://arxiv.org/abs/1411.4038 FCN是对图像进行像素级的分类也就是每个像素点都进行分类从而解决了语义级别的图像分割问题。FCN可以接受任意尺寸的输入图像采用反卷积层对最后一个卷积层的特征图进行上采样使它恢复到输入图像相同的尺寸从而可以对每一个像素都产生一个预测同时保留了原始输入图像中的空间信息最后在上采样的特征图进行像素的分类。简单的说FCN与CNN的区别在于FCN把CNN最后的全连接层换成卷积层其输出的是一张已经标记好的图而不是一个概率值。 2. U-Net 论文地址https://arxiv.org/abs/1505.04597 网络的左侧是由卷积和Max Pooling构成的一系列降采样操作由4个block组成每个block使用了3个有效卷积和1个Max Pooling降采样每次降采样之后Feature Map的个数乘2因此有了图中所示的Feature Map尺寸变化。最终得到了尺寸为32×3232 × 3232×32的Feature Map。网络的右侧部分同样由4个block组成每个block开始之前通过反卷积将Feature Map的尺寸乘2同时将其个数减半最后一层略有不同然后和左侧对称的Feature Map合并由于左侧和右侧的Feature Map的尺寸不一样U-Net是通过将左侧的Feature Map裁剪到和扩展路径相同尺寸的Feature Map进行归一化的即图1中左侧虚线部分。右侧的卷积操作依旧使用的是有效卷积操作最终得到的Feature Map的尺寸是338×338338 × 338338×338。由于该任务是一个二分类任务所以网络有两个输出Feature Map。 3. SegNet 论文地址https://arxiv.org/abs/1511.00561 SegNet的核心由一个编码器网络和一个对应的解码器网络以及一个像素级分类层组成。 4. PSPNet 论文地址https://arxiv.org/abs/1612.01105 PSPNet的核心模块是Pyramid Pooling Modules融合了四种不同金字塔尺度下的特征。通过CNN得到的特征图经过四种尺度的池化操作得到四种尺寸的特征图然后经过卷积操作改变特征图的通道在通过上采样操作恢复特征图的尺寸大小最后与输入特征图进行Concat得到最终的金字塔池化全局特征。 参考文章
四、全卷积网络FCN详细讲解超级详细哦
快速理解Unet的网络结构
SegNet算法详解