企业网站备案资料填写单,莱芜综合频道莱芜新闻,wordpress admin慢,长沙最新招聘信息最新消息一、本文介绍
在这篇文章中#xff0c;我们将讲解如何将LSKAttention大核注意力机制应用于YOLOv10#xff0c;以实现显著的性能提升。首先#xff0c;我们介绍LSKAttention机制的基本原理#xff0c;它主要通过将深度卷积层的2D卷积核分解为水平和垂直1D卷积核#xff0… 一、本文介绍
在这篇文章中我们将讲解如何将LSKAttention大核注意力机制应用于YOLOv10以实现显著的性能提升。首先我们介绍LSKAttention机制的基本原理它主要通过将深度卷积层的2D卷积核分解为水平和垂直1D卷积核减少了计算复杂性和内存占用。接着我们介绍将这一机制整合到YOLOv10的方法以及它如何帮助提高处理大型数据集和复杂视觉任务的效率和准确性。本文还将提供代码实现细节和使用方法展示这种改进对目标检测、语义分割等方面的积极影响。通过实验YOLOv10在整合LSKAttention机制后实现了检测精度提升(下面会附上改进LSKAttention机制和基础版本的结果对比图)。 专栏回顾YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备 目录 一、本文介绍
二、LSKAttention的机制原理
三、LSKAttention的代码
四、手把手教你将LSKAttention添加到你的网络结构中
4.1 LSKAttention的添加教程
4.2 LSKAttention的yaml文件和训练截图
4.2.1 LSKAttention的yaml文件
4.2.2 LSKAttention的训练过程截图
五、LSKAttention可添加的位置
5.1 推荐LSKAttention可添加的位置
5.2图示LSKAttention可添加的位置
六、本文总结 二、LSKAttention的机制原理 论文地址官方论文地址
代码地址官方代码地址 《Large Separable Kernel Attention》这篇论文提出的LSKAttention的机制原理是针对传统大核注意力Large Kernel AttentionLKA模块在视觉注意网络Visual Attention NetworksVAN中的应用问题进行的改进。LKA模块在处理大尺寸卷积核时面临着高计算和内存需求的挑战。LSKAttention通过以下几个关键步骤和原理来解决这些问题 核分解LSKAttention的核心创新是将传统的2D卷积核分解为两个1D卷积核。首先它将一个大的2D核分解成水平横向和垂直纵向的两个1D核。这样的分解大幅降低了参数数量和计算复杂度。 串联卷积操作在进行卷积操作时LSKAttention首先使用一个1D核对输入进行水平方向上的卷积然后使用另一个1D核进行垂直方向上的卷积。这两步卷积操作串联执行从而实现了与原始大尺寸2D核相似的效果。 计算效率提升由于分解后的1D卷积核大大减少了参数的数量LSKAttention在执行时的计算效率得到显著提升。这种方法特别适用于处理大尺寸的卷积核能够有效降低内存占用和计算成本。 保持效果虽然采用了分解和串联的策略LSKAttention仍然能够保持类似于原始LKA的性能。这意味着在处理图像的关键特征如边缘、纹理和形状时LSKAttention能够有效地捕捉到重要信息。 适用于多种任务LSKAttention不仅在图像分类任务中表现出色还能够在目标检测、语义分割等多种计算机视觉任务中有效应用显示出其广泛的适用性。 总结LSKAttention通过创新的核分解和串联卷积策略在降低计算和内存成本的同时保持了高效的图像处理能力这在处理大尺寸核和复杂图像数据时特别有价值。 上图展示了在不同大核分解方法和核大小下的速度-精度权衡。在这个比较中使用了不同的标记来代表不同的核大小并且以VAN-Tiny作为对比的模型。从图中可以看出LKA的朴素设计LKA-trivial以及在VAN中的实际设计在核大小增加时会导致更高的GFLOPs十亿浮点运算次数。相比之下论文提出的LSKALarge Separable Kernel Attention-trivial和VAN中的LSKA在核大小增加时显著降低了GFLOPs同时没有降低性能 上图展示了大核注意力模块不同设计的比较具体包括 LKA-trivial朴素的2D大核深度卷积DW-Conv与1×1卷积结合图a。LSKA-trivial串联的水平和垂直1D大核深度卷积与1×1卷积结合图b。原始LKA设计在VAN中包括标准深度卷积DW-Conv、扩张深度卷积DW-D-Conv和1×1卷积图c。提出的LSKA设计将LKA的前两层分解为四层每层由两个1D卷积层组成图d。其中N代表Hadamard乘积k代表最大感受野d代表扩张率。 个人总结提出了一种创新的大型可分离核注意力LSKA模块用于改进卷积神经网络CNN。这种模块通过将2D卷积核分解为串联的1D核有效降低了计算复杂度和内存需求。LSKA模块在保持与标准大核注意力LKA模块相当的性能的同时显示出更高的计算效率和更小的内存占用。 三、LSKAttention的代码
将下面的代码在ultralytics/nn/modules 目录下创建一个py文件复制粘贴进去然后按照章节四进行添加即可(需要按照有参数的注意力机制添加)。 import torch
import torch.nn as nnclass LSKA(nn.Module):def __init__(self, dim, k_size):super().__init__()self.k_size k_sizeif k_size 7:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 3), stride(1,1), padding(0,(3-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(3, 1), stride(1,1), padding((3-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 3), stride(1,1), padding(0,2), groupsdim, dilation2)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(3, 1), stride(1,1), padding(2,0), groupsdim, dilation2)elif k_size 11:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 3), stride(1,1), padding(0,(3-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(3, 1), stride(1,1), padding((3-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 5), stride(1,1), padding(0,4), groupsdim, dilation2)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(5, 1), stride(1,1), padding(4,0), groupsdim, dilation2)elif k_size 23:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 5), stride(1,1), padding(0,(5-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(5, 1), stride(1,1), padding((5-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 7), stride(1,1), padding(0,9), groupsdim, dilation3)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(7, 1), stride(1,1), padding(9,0), groupsdim, dilation3)elif k_size 35:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 5), stride(1,1), padding(0,(5-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(5, 1), stride(1,1), padding((5-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 11), stride(1,1), padding(0,15), groupsdim, dilation3)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(11, 1), stride(1,1), padding(15,0), groupsdim, dilation3)elif k_size 41:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 5), stride(1,1), padding(0,(5-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(5, 1), stride(1,1), padding((5-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 13), stride(1,1), padding(0,18), groupsdim, dilation3)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(13, 1), stride(1,1), padding(18,0), groupsdim, dilation3)elif k_size 53:self.conv0h nn.Conv2d(dim, dim, kernel_size(1, 5), stride(1,1), padding(0,(5-1)//2), groupsdim)self.conv0v nn.Conv2d(dim, dim, kernel_size(5, 1), stride(1,1), padding((5-1)//2,0), groupsdim)self.conv_spatial_h nn.Conv2d(dim, dim, kernel_size(1, 17), stride(1,1), padding(0,24), groupsdim, dilation3)self.conv_spatial_v nn.Conv2d(dim, dim, kernel_size(17, 1), stride(1,1), padding(24,0), groupsdim, dilation3)self.conv1 nn.Conv2d(dim, dim, 1)def forward(self, x):u x.clone()attn self.conv0h(x)attn self.conv0v(attn)attn self.conv_spatial_h(attn)attn self.conv_spatial_v(attn)attn self.conv1(attn)return u * attn四、手把手教你将LSKAttention添加到你的网络结构中
4.1 修改一
第一还是建立文件我们找到如下ultralytics/nn文件夹下建立一个目录名字呢就是Addmodules文件夹(用群内的文件的话已经有了无需新建)然后在其内部建立一个新的py文件将核心代码复制粘贴进去即可。 4.2 修改二
第二步我们在该目录下创建一个新的py文件名字为__init__.py(用群内的文件的话已经有了无需新建)然后在其内部导入我们的检测头如下图所示。 4.3 修改三
第三步我门中到如下文件ultralytics/nn/tasks.py进行导入和注册我们的模块(用群内的文件的话已经有了无需重新导入直接开始第四步即可)
从今天开始以后的教程就都统一成这个样子了因为我默认大家用了我群内的文件来进行修改
4.4 修改四
按照我的添加在parse_model里添加即可。 到此就修改完成了大家可以复制下面的yaml文件运行。 五、LSKA的yaml文件和运行记录
5.1 LSKA的yaml文件1 此版本训练信息YOLOv10n-LSKA summary: 403 layers, 2810422 parameters, 2810406 gradients, 8.6 GFLOPs # Ultralytics YOLO , AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. modelyolov10n.yaml will call yolov10.yaml with scale n# [depth, width, max_channels]n: [0.33, 0.25, 1024]backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9- [-1, 1, PSA, [1024]] # 10# YOLOv10.0n head
head:- [-1, 1, nn.Upsample, [None, 2, nearest]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 13- [-1, 1, nn.Upsample, [None, 2, nearest]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 16 (P3/8-small)- [-1, 1, LSKA, []] # 17 (P3/8-small) 小目标检测层输出位置增加注意力机制- [-1, 1, Conv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 20 (P4/16-medium)- [-1, 1, LSKA, []] # 21 (P4/16-medium) 中目标检测层输出位置增加注意力机制- [-1, 1, SCDown, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 3, C2fCIB, [1024, True, True]] # 24 (P5/32-large)- [-1, 1, LSKA, []] # 25 (P5/32-large) 大目标检测层输出位置增加注意力机制# 如果你自己配置注意力位置注意from[17, 21, 25]位置要对应上对应的检测层- [[17, 21, 25], 1, v10Detect, [nc]] # Detect(P3, P4, P5)5.2 PSALSKA的yaml文件2
# Ultralytics YOLO , AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. modelyolov10n.yaml will call yolov10.yaml with scale n# [depth, width, max_channels]n: [0.33, 0.25, 1024]backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9- [-1, 1, PSALSKA, [1024]] # 10# YOLOv10.0n head
head:- [-1, 1, nn.Upsample, [None, 2, nearest]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 13- [-1, 1, nn.Upsample, [None, 2, nearest]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 16 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 19 (P4/16-medium)- [-1, 1, SCDown, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)- [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)5.2 训练代码
大家可以创建一个py文件将我给的代码复制粘贴进去配置好自己的文件路径即可运行。 import warnings
warnings.filterwarnings(ignore)
from ultralytics import YOLOif __name__ __main__:model YOLO(ultralytics/cfg/models/v8/yolov8-C2f-FasterBlock.yaml)# model.load(yolov8n.pt) # loading pretrain weightsmodel.train(datar替换数据集yaml文件地址,# 如果大家任务是其它的ultralytics/cfg/default.yaml找到这里修改task可以改成detect, segment, classify, posecacheFalse,imgsz640,epochs150,single_clsFalse, # 是否是单类别检测batch4,close_mosaic10,workers0,device0,optimizerSGD, # using SGD# resume, # 如过想续训就设置last.pt的地址ampFalse, # 如果出现训练损失为Nan可以关闭ampprojectruns/train,nameexp,) 5.3 GhostModule的训练过程截图 六、本文总结
到此本文的正式分享内容就结束了在这里给大家推荐我的YOLOv10改进有效涨点专栏本专栏目前为新开的平均质量分98分后期我会根据各种最新的前沿顶会进行论文复现也会对一些老的改进机制进行补充目前本专栏免费阅读(暂时大家尽早关注不迷路~)如果大家觉得本文帮助到你了订阅本专栏关注后续更多的更新~ 专栏回顾