当前位置：首页 > news >正文

珠海市规划建设局网站网站建设新闻动态

news 2025/12/31 7:46:41

珠海市规划建设局网站,网站建设新闻动态,企业网络营销策划与分析,标签云小工具 wordpress nofollow一、论文信息 1.1、中文名称名称#xff1a;SUnet#xff1a;基于多重注意力的多器官分割网络 1.2、论文关键词医学图像分割、Transformer、注意力机制、高效特征融合模块 1.3、核心概述本文提出了一种新颖有效的医学图像分割方法 SUnet#xff0c;用于腹部和胸部的多…一、论文信息 1.1、中文名称名称SUnet基于多重注意力的多器官分割网络 1.2、论文关键词医学图像分割、Transformer、注意力机制、高效特征融合模块 1.3、核心概述本文提出了一种新颖有效的医学图像分割方法 SUnet用于腹部和胸部的多器官分割。二、摘要 2.1、背景腹部或胸部计算机断层扫描 (CT) 图像中的器官分割在医学诊断中发挥着至关重要的作用因为它使医生能够快速定位和评估器官异常从而指导手术计划并辅助治疗决策。 2.2、提出新方法 SUnet 是一个完全基于注意力的神经网络。首先引入高效的空间缩减注意力ESRA模块不仅可以更好地提取图像特征还可以减少整体模型参数并减轻过度拟合。其次SUnet基于多重注意力的特征融合模块可以实现有效的跨尺度特征融合。此外还考虑使用分组卷积和残差连接来增强注意力门EAG模块提供更丰富的语义特征。 2.3、结果本文评估了所提出的模型在突触多器官分割数据集和自动心脏诊断挑战数据集上的性能。SUnet 在这两个数据集上的平均 Dice 分别为 84.29% 和 92.25%优于具有相似复杂性和规模的其他模型并取得了最先进的结果。三、引言 3.1、引出背景腹部和胸部是人体脏器最多的部位也是各种疾病的易发部位。从计算机断层扫描 (CT) 扫描中分割器官在诊断和治疗中发挥着至关重要的作用。然而这对于医生来说是一项费力且容易出错的任务。因此临床实践中迫切需要自动化的器官分割方法来辅助医生更高效、准确的诊断。近年来人工智能虽然在生物医学领域取得了可喜的成果如单细胞多组学数据分析、RNA-RNA相互作用、蛋白质组学研究、生物标志物研究等。 3.2、引出挑战研究发现基因/蛋白质信号网络和药物代谢组学数据处理腹部或胸部器官的自动分割仍然是一项具有挑战性的任务。造成这些挑战的因素有很多包括周围组织的干扰、器官变形或移位以及导致边界不清晰的低图像对比度。这些挑战给实现准确和稳健的器官分割带来了困难。 3.3、目前研究概况此前已经提出了几种基于卷积神经网络CNN的二维2D医学图像分割模型其中Unet模型是最具代表性的模型。 Unet 采用独特的 U 形编码器-解码器结构和跳跃连接从而提高了模型的性能同时引入了新的医学图像处理设计方法。 Unet 的出色性能随后激发了多种变体网络的发展。例如Unet 通过使用嵌套和密集的跳跃连接代替原始连接来增强模型性能。 Unet3是一种U形医学图像分割模型采用全尺寸跳跃连接和深度监督。此外ResUnet和ResUnet也是基于Unet的优秀医学图像分割模型。然而尽管取得了成就这些基于 CNN 的模型仍遇到了问题由于卷积运算固有的限制有效建立长距离依赖关系的局限性限制了其性能。 Transformer以其有效捕获长距离依赖的能力而闻名引起了计算机视觉研究人员的关注。 Vision TransformerViT是第一个将Transformer纳入图像处理的深度学习模型它将图像划分为小块并采用自注意力进行特征提取。 ViT 中的Transformer表现出了卓越的性能为研究人员提供了一种新的特征提取方法克服了卷积的固有限制。 TransUnet 率先将 Transformer 集成到医学图像分割中用 CNN-Transformer 混合模型替代了 Unet 模型的编码器。这种混合特征提取网络可以提取更多语义特征从而提高模型的性能。然后Cao等人提出的Swin-Unet模型是一种完全基于Transformer的编码器-解码器架构用于医学图像分割已经取得了显着的性能。同样几种基于Transformer的医学图像分割模型已应用于各种形式的医学数据。然而这些基于 Transformer 的模型通常比基于 CNN 的医学图像分割模型具有更重要的参数和计算要求这对计算资源有限的从业者构成了巨大的挑战。受pyramid vision transformer视觉金字塔TransformerPVT的启发本文设计了一种新颖的编码器-解码器医学图像分割网络称为SUnet。该网络使用高效的空间缩减注意力ESRA从而提高性能并减少模型参数。此外本文提出了一种高效的多注意力特征融合模块该模块可以有效地将来自跳过连接的低级语义特征与来自解码器的上采样得到高级语义特征融合在一起。 3.4、贡献总结本文提出SUnet一种纯基于Transformer的U形医学图像分割网络结合了高效的空间缩减注意力和多注意力特征融合。本文提出了有效的空间缩减注意力这使得模型能够在保持更少参数的同时表现更好并减轻基于Transformer的模型中常见的过度拟合。为了降低计算复杂度和数据依赖性并提取更多与任务相关的特征本文提供了基于分组卷积和残差连接的增强型注意门EAG模块。本文提出了一种基于多重注意力的高效特征融合EFF模块该模块在U形网络中实现了跳跃连接和解码器特征之间更好的融合。四、相关工作 4.1、U-Net Unet是Ronneberger等人提出的基于深度学习模型的卷积神经网络。 2015年它广泛用于医学图像分割任务例如腹部多器官分割、自动心脏诊断、视网膜血管分割和皮肤癌分割。 Unet模型的特点是编码器-解码器结构和跳跃连接将编码器的多级语义特征传输到解码器。这种操作可以将更多低级语义特征集成到特征图中确保医学图像分割的高精度。由于其在图像分割方面的强大性能它也广泛应用于卫星图像分割和工业缺陷检测。随着时间的推移Unet演变出了许多深度学习模型。本文提出的SUnet医学图像分割模型也继承了Unet的U型结构和跳跃连接。 4.2、注意力机制注意力机制是深度学习中广泛使用的一种算法它模仿人类的注意力机制。在深度学习中所有输入特征都被同等对待无论它们与当前任务的相关性如何。因此该模型无法有效地将注意力分配到任务相关区域这在一定程度上限制了深度学习模型的性能。相比之下注意力机制对输入的不同部分分配不同程度的注意力和权重更加关注与当前任务相关的信息。空间注意力SA机制是深度学习领域广泛使用的技术。 2018 年Oktay 等人提出了注意力门AG它可以关注计算机视觉任务中的通道信息它利用学习权重系数对原始输入与所选向量的乘积进行加权实现通道选择和加权。 Hu等人提出的挤压和激励神经网络SENet。主要学习卷积神经网络中通道之间的相关性并将较大的权重分配给对当前任务有用的通道。它通过两个步骤实现挤压和激励。 Wang等人提出了一种有效的通道注意ECA模块。 ECA网络通过对每个通道的特征图应用一维卷积运算来建立通道之间的局部上下文相关性从而实现通道注意力的自适应计算。除了上述仅关注特定维度的注意力机制外还探索了多维度注意力机制。例如Wu等人提出了一种多维混合注意卷积块注意模块CBAM重点关注通道和空间信息。与专门考虑通道维度的 SENet 注意力机制不同CBAM 整合了多个维度的信息以更好地关注有用信息。此外Rahman等人首次首次提出了一种层次化的级联基于注意力的解码器这也为EFF模块的设计提供了思路。 4.2、视觉金字塔Transformer PVT是Wang等人提出的骨干网络, PVT的核心模块涉及通过卷积对多头自注意力MHSA机制中的键和值进行特征压缩。这种压缩操作过程显着降低了参数和计算复杂性。缩减率决定了卷积核和步幅的大小。 PVT 作为骨干网络广泛应用于各种视觉任务例如目标检测和定位、遥感图像分类和医学图像分析。 PVT 的广泛采用凸显了其多功能性和有效性使其成为计算机视觉领域具有重要意义的研究课题。五、具体方法 5.1、框架整体结构图1SUNet架构图 SUnet遵循Unet的编码器-解码器结构并采用跳跃连接来传达低级语义信息。通道号表示为、、和定义为 64、 128、 320、 512。ESRA Transformer块用作 SUnet 中的特征提取模块本文将两个通道堆叠在一起每级都有 ESRA Transformer块。 ESRA Transformer块的示意图如图1b所示。 ESRA Transformer块内的 Mix-FFN 模块如图1c所示它与传统的前馈网络FFN不同它在两个线性层之间使用深度卷积。在 SUnet 模型中重叠补丁嵌入使用内核大小为 7 × 7 且步幅为 3 的卷积层进行补丁嵌入。重叠补丁合并采用内核大小为 3 × 3 的卷积层。嵌入补丁的重叠属性有助于减轻传统补丁嵌入造成的信息丢失。图1d展示了EFF的架构主要由三个子模块组成EAG、ECA和SA。本文使用组数为 32 的分组卷积和残差连接来改进原始 AG。 EAG模块通过上采样获得的高级语义特征来增强通过跳跃连接传输的低级语义特征。 EAG的结构如图1(e)所示。连接后ECA和SA主要用于突出特征图中任务相关区域的重要通道和空间位置以提高特征表达能力。应该注意的是底部ECA和SA模块仅包含单个输入特征因此本文仅使用ECA和SA来强调特征。 5.2、ESRA Transformer模块图2self-attention和ESRA的结构对比图由于其强大的全局建模能力Transformer 在计算机视觉任务中获得了广泛的应用。然而当使用有限的数据进行训练时基于 Transformer 的模型通常会遇到计算复杂性高和容易过度拟合等挑战。为了应对这些挑战本文提出了一种称为 ESRA 的方法如图 2 所示。ESRA不仅缓解了模型过拟合还减少了整体参数。具体来说本文利用卷积运算来压缩 MHSA 中的键和值从而减少模型参数。原始MHSA的参数个数可以用公式(1)表示。其中H和W表示输入特征图的高度和宽度head是MHSA中的头的数量表示每个头的通道尺寸。这里本文默认batch size为1。ESRA的参数计算遵循相同的原理可以用公式2表示。式中表示第i阶段的减速比。从式1和式2可以看出当 2时MHSA的参数数量比ESRA多。为了减轻由 Transformer 引起的过拟合问题本文在 ESRA 中使用 dropkey 来隐式为每个注意力头分配一个自适应算子。这种方法有助于通过惩罚具有较高注意力值的区域来限制注意力分布促进更平滑的注意力并鼓励模型关注与任务相关的其他地方捕获强大的全局特征。因此ESRA可以表示为 SR()运算可表示如下在等式(4)中Conv2dRi表示通过使用核大小和步幅的2D卷积运算实现的特征压缩。而dropkey操作可以表示如下其中x表示要处理的注意力权重。函数bernoulli() 用于生成遵循伯努利分布的样本而like() 函数则生成与x 大小相同的矩阵。 5.3、高效特征融合模块 AG模块是由Oktay等人提出的。在注意力网络中。然而本文发现AG模块不仅计算复杂度高而且需要很强的数据依赖性。当AG应用于高分辨率图像时会显着增加计算负担。此外AG 的两个输入之间必须存在严格的数据依赖才能准确捕获重要特征。当输入之间的相关性较弱时AG 无法捕获关键特征。在本文的工作中通过用分组卷积代替传统卷积来扩展AG以进行组内特征融合并且分组卷积的计算复杂度明显小于传统卷积方法。同时本文修改了AG的结构在输入特征的卷积后添加ReLU层并对跳跃连接传递的低级语义特征进行残差连接。当两个输入特征之间的相关性较弱时残余连接可以减轻高级语义特征对低级语义特征的影响从而避免整体模型的性能下降。 EAG的内部结构如图1e所示。 EAG可表示为其中Sigmoid和ReLU是激活函数BN是Batch Normalization操作GroupConv32是32组的分组卷积Conv1×1是卷积核大小为1×1的常规卷积。在该模型中g是通过以下方式获得的语义特征上采样x 是跳过连接传递的低级语义特征。 5.3.1、基于多注意力的EFF模块 EFF模块的结构如图1(d)所示。在EFF模块中首先通过EAG增强两个不同级别的语义特征以削弱不相关区域的影响。级联后通道数是原来的2倍如果直接操作可能会丢失大量图像信息本文使用ECA和SA从两个维度强调相关特征。值得注意的是在本文的模型中ECA 和 SA 串联连接。这种通道注意力和空间注意力的结合可以更好地实现多注意力融合。 ECA和SA结合使用结构图如图3所示。图3ECA和SA串联结构六、实验过程 6.1、数据集 Synapse 多器官分割数据集 (Synapse)在本实验中本文使用了 MICCAI 2015 多图集腹部 Labeling 挑战赛中的 30 张标记腹部 CT 扫描和 3779 张增强腹部图像。每次 CT 扫描由 85-198 个切片组成分辨率为 512 x 512 像素。本文对八个不同的器官进行了图像分割主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺、脾脏和胃。自动心脏诊断挑战数据集 (ACDC)该数据集广泛用于心脏磁共振成像 (MRI) 评估提供全面且完整注释的心脏 MRI 扫描集合。该数据集包含 100 名不同患者心脏的 MRI 扫描每个样本包含三个器官标签称为左心室 (LV)、右心室 (RV) 和心肌 (Myo)。在图4中显示了部分数据集图像。图4部分数据集图像 6.2、实验细节本文所有实验均基于Pytorch 1.8.0框架。使用Ubuntu 18.04操作系统、CPU I7-12700K、Nvidia RTX 3090、1 TB固态硬盘的计算机进行实验。在SUnet的所有实验中本文都使用AdamW优化器学习率和权重衰减设置为1e-4。为了进行比较本文在模型和所有基准模型中使用了相同的超参数设置。在Synapse数据集的实验中数据被分为由18个样本数据组成的训练集和由12个样本数据组成的测试集。本文将批量大小设置为 24最大 epoch 数设置为 150输入图像大小和块大小分别设置为 224 × 224 和 16。应用随机翻转和旋转来增强数据。在ACDC数据集上的实验中本文使用70个扫描样本进行训练10个扫描样本进行验证20个样本进行测试。本文将批量大小设置为 12epochs设置为 150补丁大小设置为 16。本文使用随机翻转和旋转来增强数据。使用Dice损失和交叉熵损失函数模型的整体损失可以表示为其中 0.6 0.4DICE表示骰子损失函数CE为交叉熵损失函数。 6.3、实验结果 6.3.1、Synapse数据集实验结果表1不同模型在Synapse数据集上的结果图59种语义分割模型在Synapse上的性能图6SUnet 模型在 Synapse 数据集上的结果图7Synapse数据集上五个模型的定性实验 6.3.2、ACDC 数据集实验结果表2ACDC数据集中不同模型的比较图8SUnet 模型在 ACDC 数据集上的结果图9SUnet模型在ACDC数据集上的可视化结果 6.4、消融实验表3Synapse数据集上消融实验七、总结本文介绍了 SUnet一种基于 ESRA 的新型 2D 医学图像分割模型。论文提出了一种创新的 EFF 模块该模块使用多种注意机制包括 EAG、ECA 和 SA有效地融合跳跃连接和解码器特征。 EAG模块基于分组卷积能够实现高效的组内特征融合。与其他 2D 医学图像分割模型例如 TransUnet 和 Swin Unet相比本文提出的 SUnet 模型以更少的参数实现了更高的精度。它在 Synapse 数据集上的平均 Dice 为 84.29%在 ACDC 数据集上的平均 Dice 为 92.25%。 SUnet 比当前最先进的 2D 医学图像分割模型表现出卓越的适应性和参数效率使其更适合 2D 医学图像分割中的各种任务特别是在计算资源有限的场景中。尽管使用了多种注意力机制来实现特征融合但SUnet并没有从根本上有效解决局部和全局特征融合的问题。在未来的研究中将开发一种新的高效语义分割模型该模型集成全局和局部图像特征以提取更有效的图像特征以改进医学图像分割。例如未来的目标是通过使用CNN和Transformer形成一个新的混合特征提取单元它对全局和局部特征同样关注。挑战在于实现这种更高效的混合模型同时确保其不会显着增加参数甚至变得更加轻量级。通过解决这些挑战渴望提高医学图像分割模型的性能并为计算机辅助诊断和治疗做出贡献。

查看全文

http://www.w-s-a.com/news/493290/