企业网站建设的基本内容,网站制作哪家最好,风铃制作,深圳宝安区属于什么风险区0. 写在前面 这篇博文主要是为了记录一下yolov5中的小的记忆点#xff0c;方便自己查看和理解。
1. 完整过程 #xff08;1#xff09;Input阶段#xff0c;图片需要经过数据增强Mosaic#xff0c;并且初始化一组anchor预设#xff1b; #xff08;2#xff09;特征提…0. 写在前面 这篇博文主要是为了记录一下yolov5中的小的记忆点方便自己查看和理解。
1. 完整过程 1Input阶段图片需要经过数据增强Mosaic并且初始化一组anchor预设 2特征提取Backbone使用Conv、C3、SPPF基本结构对输入图片进行特征提取Conv用于对输入进行下采样一共进行了5次下采样C3用于对输入进行特征提取、融合丰富特征的语义信息在这个过程中使用了BoottleNeck减少参数量和计算量、借鉴CSPNet思想增强CNN学习能力SPPF利用池化、特征融合的方式丰富特征的语义信息使得最深层的特征图拥有极丰富的语义信息 3加工特征Neckv5是三种尺度的特征图融合浅层特征浅层特征在检测方面有优势借鉴了PANet对提取的特征图融合浅层特征使得特征图既具有丰富的语义信息又具有物体准确的位置信息 4预测目标Head:对加工后的特征图进行预测根据损失函数和优化器优化参数权重。
2. 小知识 2.1 特征融合方式 concat: 张量拼接会扩充两个张量的维度例如26*26*256和26*26*512张量拼接结果是26*26*768; add:张量相加张量直接相加不会扩充维度例如104*104*128和104*104*128相加结果还是104*104*128。 2.2 anchor 锚框就是在图像上预设好不同大小不同长宽比的参照框。anchor是由FasterRCNN提出的anchor解决了scale和aspect ratio变化范围大的问题即将单元格的预测框控件划分了几个子空间降低模型学习难度。 输入640*640的图片经过32倍、16倍和8倍下采样会产生20*20、40*40和80*80大小的特征图网格尺寸特征图的每个像素该像素对应的视野大小就是网格中的单元格大小设置3个anchor因此v5共有20*2040*4080*80*3 25200个anchor。 借助网络训练的强大拟合能力直接让网络输出每个anchor是否包含或者说与物体有较大重叠也就是IoU较大物体以及被检测物体相对本anchor的中心点偏移以及长宽比例。因为anchor的位置是固定的所以就很容易换算出实际物体的位置。 2.3 BottleNeck 目的是减少参数量和计算而设计的1*1,64 3*364 1*1256的卷积层替换3*3的卷积层
假设Input[1,256,10,10]则
普通卷积参数量256 * 3 *3 *256256590080计算量FLOPs:256*3*3*256*10*1058982400;
BottleNeck的参数量:256*1*1*6464 64*3*3*646464*1*1*25625670016
BottleNeck的计算量256*1*1*64*10*1064*3*3*64*10*1064*1*1*256*10*10 6963200
BottleNeck结构减少了参数量和计算量十分明显。