平台代理推广,徐州seo管理,为什么wordpress升级,磁力天堂最新版地址参考#xff1a;LViT#xff1a;语言与视觉Transformer在医学图像分割-CSDN博客
背景
标注成本过高而无法获得足够高质量标记数据医学文本注释被纳入以弥补图像数据的质量缺陷半监督学习#xff1a;引导生成质量提高的伪标签医学图像中不同区域之间的边界往往是模糊的LViT语言与视觉Transformer在医学图像分割-CSDN博客
背景
标注成本过高而无法获得足够高质量标记数据医学文本注释被纳入以弥补图像数据的质量缺陷半监督学习引导生成质量提高的伪标签医学图像中不同区域之间的边界往往是模糊的边界附近的灰度值差很小很难提取出高精度的分割边界
贡献
指数伪标签迭代机制(EPI)帮助像素级注意模块(PLAM)----在半监督LViT设置下保持局部图像特征LV (Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练构建了包含x射线和CT图像的三个多模态医学分割数据集(图像文本)模型 CNN (卷积神经网络)处理输入的图像提取局部特征。ViT (视觉Transformer)利用Transformer结构处理从CNN提取的特征并结合来自文本嵌入的特征。BERT-Embed (BERT嵌入)利用BERT模型对输入的文本进行嵌入提取语义信息。如何利用已有的图像-文本信息提高分割性能 使用嵌入层代替文本编码器获得文本特征向量减少模型中参数的数量具有像素级注意模块(PLAM)的混合CNNTransformer结构能够更好地合并文本信息CNN局部特征transformer全局特征如何充分利用文本信息保证伪标签的质量 伪标签迭代机制(Exponential Pseudo label Iteration mechanism, EPI) 利用标记数据的标签信息和未标记数据的潜在信息EPI间接结合文本信息以指数移动平均线(EMA)的方式逐步完善伪标签[10]LV (Language-Vision) loss的设计目的是直接利用文本信息来监督未标记医学图像的训练。
模型
双u型结构u型CNN支路u型Transformer支路
左面的红方框是Transformer支路右面的红方框是CNN支路。
CNN分支作为信息输入源和预测输出的分割头ViT分支用于图像和文本信息的合并Transformer处理跨模态信息的能力u型CNN分支的跳接位置设置一个像素级注意模块(PLAM)----保留图像的局部特征信息 U形CNN分支 每个CNN模块Conv、BatchNorm(BN)和ReLU激活层Maxpool对图像特征进行下采样老规矩了 CNN-ViT交互模块使用了上采样等方法来对齐来自ViT的特征。重构后的ViT特征通过残差与CNN特征连接形成CNN-ViT交互特征。提高局部特征的分割能力跳接处设计了PLAM将CNN-ViT交互特征输入到PLAM中再将交互特征传递到UpCNN模块逐层向上给出信息。
U形Vit分支 用于合并图像特征和文本特征第一层DownViT模块接收BERT-Embed输入的文本特征和第一层DownCNN模块输入的图像特征。BERT-Embed的预训练模型是BERT_12_768_12模型它可以将单个单词转换为768维的单词向量。跨模态特征合并操作 CTBN块还包括Conv层、BatchNorm层和ReLU激活层用于对齐、1和的特征维度。ViT由多头自注意组成LN表示归一化层第2层、第3层和第4层的后续DownViT模块既接收上层DownViT模块的特征又接收相应层的DownCNN模块的特征
PLAM 旨在保留图像的局部特征并进一步融合文本中的语义特征并行分支Global Average Pooling (GAP)Global Max Pooling (GMP) 加法操作合并具有相似语义的相应通道特征并节省计算连接操作更直观地整合特征信息并有助于保留每个部分的原始特征使用MLP结构和乘法操作来帮助对齐特征大小PLAM通过增强局部特征来缓解Transformer带来的对全局特征的偏好PLAM采用通道注意和空间注意相结合的方式我的理解是通道注意力机制PLAM空间注意力机制Transformer
指数伪标签迭代机制 更新后的伪标签将用于无标签数据的训练使得无标签数据可以像有标签数据一样为模型提供监督信息。这种方式能够有效利用大量的无标签数据提高模型的泛化能力和鲁棒性。 初始生成 使用有标签数据训练初始模型生成伪标签。初始模型可以通过图中的Down CNN和Up CNN部分进行训练。 预测和更新 在每一轮训练中使用当前模型例如图中的LViT模型对无标签数据进行预测生成新的伪标签。通过EPI机制更新伪标签逐步提高其质量。这一过程在图中没有具体表示但它是数据处理的一部分。 再训练 使用更新后的伪标签对模型进行再训练。模型结构可以包括图中的Down ViT和Up ViT部分以及中间的PLAM模块。
LV (Language-Vision) Loss
结构化的文本信息来形成相应的掩码(对比标签)计算文本之间的余弦相似度 ,表示伪标签对应的文本特征向量,表示对比标签对应的文本特征向量