做魔杖网站,网站设计网页配色,文昌网站 做炸饺子,保定网站开发培训文章目录 一、整体网络结构1. YOLO v4 网络结构图2.对之前版本改进创新的概括 二、对改进创新部分的具体介绍1. 输入端创新2. Backbone主干网络创新CSPDarknet53Mish激活函数Dropblock正则化 3. 特征融合创新SPP模块PAN结构 4. Prediction输出层创新#xff08;未写完#xf… 文章目录 一、整体网络结构1. YOLO v4 网络结构图2.对之前版本改进创新的概括 二、对改进创新部分的具体介绍1. 输入端创新2. Backbone主干网络创新CSPDarknet53Mish激活函数Dropblock正则化 3. 特征融合创新SPP模块PAN结构 4. Prediction输出层创新未写完CIOU LossDIoU_NMS 三、性能与应用1. 性能2. 应用 YOLO v4You Only Look Once version 4是一种先进的目标检测系统于2020年推出是对之前版本YOLO的改进。YOLOv4基于深度卷积神经网络能够高精度实时检测图像中的目标。以下是对YOLOv4的详细介绍 一、整体网络结构
1. YOLO v4 网络结构图 2.对之前版本改进创新的概括
输入端的创新数据增强主干网络的改进各种方法技巧结合起来包括CSPDarknet53、Mish 激活函数、Dropblock特征融合创新在主干网络和最后的输出层之间插入一些层比如 SPP 模块、FPNPAN 结构Prediction输出层创新CIOU Loss损失函数、DIoU_NMS新型的非极大值抑制
二、对改进创新部分的具体介绍
1. 输入端创新
Mosaic数据增强采用了CutMix的方法将4张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接增强了对正常背景之外的对象的检测丰富了检测物体的背景信息。同时减少了估计均值和方差时的计算量降低了训练成本。
如下图
2. Backbone主干网络创新
CSPDarknet53
CSPDarknet53借鉴了ResNet的残差结构并运用了CSPCross Stage Partial结构 CSPNet是作者Chien-Yao Wang于2019年发表的论文《CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN》中提出的一种新的网络结构它可以增强CNN的学习能力并且在轻量化的同时保持准确性。做法CSPNet 将基础层的特征映射为两个分支第二个分支正常执行残差网络接着将两个分支的信息在通道方向进行 Concat 拼接最后再通过 Transition 层进一步融合。如下图 CSPNet主要是为了解决三个问题 增强CNN的学习能力降低内存成本以及减少计算瓶颈。同时CSPNet方法可以减少模型计算量和提高运行速度还能和多种网络结构结合在一起。
Mish激活函数
Mish激活函数与ReLU相比Mish函数在训练过程中能够使梯度更加平滑避免了神经元的死亡问题从而提高了模型的准确率。下面是ReLU左和Mish右激活函数的图像
Dropblock正则化
Dropblock正则化在卷积层上引入了一种新的正则化方法通过丢弃一块相邻区域中的特征来防止过拟合。相比于传统的Dropout技术DropBlock不是随机屏蔽掉一部分特征注意是对特征图进行屏蔽而是随机屏蔽掉多个部分连续的区域。这种方法有助于减少神经网络中的冗余连接从而提高模型的泛化能力如下图
3. 特征融合创新
SPP模块
SPP-Net 全称 Spatial Pyramid Pooling Networks是何恺明提出的主要是用来解决不同尺寸的特征图如何进入全连接层的在网络的最后一层 concat 所有特征图后面能够继续接 CNN 模块SPP Net在最后一个卷积层后接入了金字塔池化层保证传到下一层全连接层的输入固定。在普通的CNN机构中输入图像的尺寸往往是固定的比如224*224像素输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层ROI Pooling使得网络的输入图像可以是任意尺寸的输出则不变同样是一个固定维数的向量。SPP 模块使得神经网络能够处理任意大小的输入从而大大提高了模型的灵活性和泛化能力。如下图
PAN结构
PAN结构在FPNFeature Pyramid Networks的基础上进行了改进引入了自底向上的路径使得底层的位置信息更容易传播到顶层。这种双向的信息传递方式增强了模型对不同尺度目标的检测能力。 YOLOv3 中只有自顶向下的 FPN对特征图进行特征融合而 YOLOv4 中则是 FPNPAN 的方式对特征进一步的融合。引入了自底向上的路径使得底层信息更容易传到顶部。下面是 YOLOv3 的 Neck 中的 FPN如图所示FPN 是自顶向下的将高层的特征信息通过上采样的方式进行传递融合得到进行预测的特征图 YOLOv4 中如下 注意YOLO v4 的特征融和方式是 concat concat将两个特征图在通道数方向叠加在一起原特征图信息完全保留下来再对原特征图增加一些我们认为是较好的特征图丰富了特征图的多样性是在空间上对原特征图的增强这样在下一次卷积的过程中我们能得到更好的特征图。
4. Prediction输出层创新未写完
CIOU Loss
CIOU Loss作为边界框回归的损失函数CIOU Loss考虑了预测框与真实框之间的重叠面积、中心点距离和长宽比等因素使得模型在训练过程中能够更快地收敛提高检测的精度。
DIoU_NMS
DIoU_NMS作为后处理方法在去除冗余的检测框时不仅考虑了框的置信度还考虑了框之间的中心点距离提高了检测的准确性。
下面是一个输入为640*640大小的图片传输到YOLO v4 模型的过程
如下图
三、性能与应用
1. 性能
在COCO数据集上YOLOv4的平均精度AP达到了43.5%速度高达65fps。高精度能够准确地检测出各种不同类别的目标。高速度满足实际应用中的实时性要求。易于训练可以在单个GPU上进行训练降低了训练的成本和难度。
2. 应用
智能安防用于监控摄像头中的目标检测实时监测人员、车辆等目标的行为。自动驾驶检测道路上的行人、车辆、交通标志等目标为自动驾驶系统提供准确的环境信息。工业检测用于工业生产中的质量检测例如检测产品的缺陷、尺寸等。
综上所述YOLOv4是一种非常强大的目标检测算法具有高精度、高速度和易于训练等优点。它在许多领域都有广泛的应用前景包括智能安防、自动驾驶和工业检测等。