奉化网站建设报价,wordpress 添加分类,百度的网站名,深圳的网站建设公司怎么样来源#xff1a;投稿 作者#xff1a;橡皮 编辑#xff1a;学姐 带你学习跨域小样本系列1-简介篇
跨域小样本系列2-常用数据集与任务设定详解
跨域小样本系列3#xff1a;元学习方法解决CDFSL以及两篇SOTA论文讲解#xff08;本篇#xff09;
跨域小样本系列4#xf… 来源投稿 作者橡皮 编辑学姐 带你学习跨域小样本系列1-简介篇
跨域小样本系列2-常用数据集与任务设定详解
跨域小样本系列3元学习方法解决CDFSL以及两篇SOTA论文讲解本篇
跨域小样本系列4finetune方法解决CDFSL以及两篇SOTA论文讲解
跨域小样本系列5除此之外一些奇门异路的论文讲解
CDFSL设置的SOTA论文选讲 主要贡献 提出了一种带有批量谱正则化BSR的特征变换集成模型。提出了在特征提取网络之后通过不同的特征变换来构建一个集成预测模型。 然后提出的模型在目标领域进行微调以解决小样本分类问题。 进一步添加标签传播、熵最小化和数据增强模块来缓解目标域标记数据的不足。 1.1整体框架Feature Transformation Ensemble Model
作者通过增加特征表示空间的多样性来构建集成模型同时保持每个预测分支网络对整个训练数据的使用。 1.2创新1Batch Spectral Regularization(BSR)
受到先前研究启发惩罚特征矩阵的较小奇异值可以帮助缓解微调中的负迁移。
作者将该惩罚器扩展到全谱并提出了一种批处理谱正则化(BSR)机制来抑制批处理特征矩阵在训练前的所有奇异值旨在避免对源域的过拟合提高对目标域的泛化能力。
该正则化方法同样适用于集成模型的每个分支网络。
对于一种基于SGD的训练算法我们使用批量训练。给定一批训练实例其特征矩阵为其中b为batch size为每个batch中第i个实例的特征向量。
BSR: 其中 σ1σ2…σb 为每个batch的特征矩阵A的奇异值每个batch的谱正则化训练损失为: 1.3创新2Label Propagation(LP)
由于目标域中缺乏标记数据使用支持集进行微调的模型很容易对查询实例做出错误的预测。提出了一种标签传播(LP)方法利用提取的特征空间中未标记的测试数据的语义信息对原始分类结果进行细化。在使用微调分类器Ct的查询实例上给定一个预测分数矩阵 保持每个类别中预测分数最高的列并将其他值设置为0只传播最可信的预测。然后我们基于提取的特征查询实例上构建k-NN图。
使用每一对图像之间的平方欧氏距离 确定k-NN图。基于RBF核的亲和力矩阵W的计算方法如下: 然后进行标签传播提供以下精细化的预测分数矩阵: 其中I为单位矩阵 为权衡参数。在LP之后 被用作第i个图像的预测类。
1.4创新3Entropy Minimization(EM)
通过最小化无标签查询集上的预测熵将半监督学习机制扩展到目标域的fine-tuning阶段 将这一项加入到支持集的每批(XsB, Y sB)上原有的交叉熵损失中形成一个转导性的微调损失函数: 1.5数据增强Data Augmentation(DA)
利用数据增强(DA)策略补充支持集使模型在更多的变化中学习。特别地作者使用一些操作的组合如图像缩放随机裁剪随机翻转随机旋转和颜色抖动为每个图像生成一些变体。可以对增强支持集进行微调。同样的增强也可以用于查询集其中可以生成每个图像的多个变体以共享相同的标签。因此对每幅图像的预测结果可以通过平均同一幅图像的所有增强变量的预测结果来确定。 2.实验结果 ACM Multimedia 2021
主要贡献 为了解决域跨度较大的FSL问题重新研究了中层特征以探索其可转移性和可鉴别性这在主流FSL工作中很少研究。
为了增强中层特征的可分辨性提出了一个残差预测任务来探索每类特征的独特性。
提出的方法不仅适用于域跨度较大的FSL问题而且适用于域内FSL和域跨度较小的CDFSL问题。以上两种设定下在六个公开数据集上进行实验实现SOTA。
1.先验事实
作者首先给出了一些先验事实
上图一般域中的样本很容易获得而在可能远离一般域的特殊域例如医疗数据中可能很难获得。为了将知识从一般域中易于获得的基类转移到遥远领域中的新类跨领域小样本识别的一个具有挑战性的子集我们重新研究了比高级模式eg.翅膀、四肢更具可转移性的中级模式eg.圆圈、点。
下图在将基类的训练模型转移到较远跨域数据集时对ResNet不同块提取的特征进行定量评估其中中级特征第3和第2块与高级特征第4块即最后一层相比性能更好。 2.作者的insight
来自较浅中层层的特征比来自较深层层的特征更容易转移。
假设每个类都有其独特的特性这不能被其他类的高级模式很容易地描述而中级模式可以更有效地描述它。
直观地说用狗的知识来描述斑马很容易把脚、尾巴等高级模式转移到斑马身上。但对于斑马独特的特征即斑马条纹来说很难将高级模式特征进行转移这时候就需要使用中间特征。
为了提高中级特征的可识别性作者提出了一个使用已知类进行训练的残差预测任务该任务鼓励中级特征学习每个样本中的判别信息。
3.解决方案
3.1总体框架
上图首先提取每个基类样本例如斑马的特征骨干网络通过分类损失进行训练。然后对于每个样本作者设计使用其他类别例如狗、鸟、人的高级模式来重建提取的特征高级重建并从提取的特征中删除重建的特征例如没有条纹的斑马可能是白马输出判别残差特征例如条纹包含适用于中级特征学习的该样本的判别信息。最后作者约束中间层特征来预测这种判别残差特征从而推动中级层的特征具有判别性。
下图在测试新类时分别为遥远域和域内/近邻域的新类提供了两种类型的特征。 3.2 高层特征重建
其中:
X样本;yX的标签;F(x)使用其他基类的高级模式来表示重建提取的特征。
W基类FC参数视作基类原型每一行W蓝包含相应类的总体信息它指的是高级模式因为它与主干的最后一层存在于相同的特征空间中。
因此原型被用来重建f(x)其他N-1种基类的原型对于x表示为原型集。具体地说使用提取的特征f(x)来应用最近邻搜索并查询最高余弦相似的原型形成邻近的原型集,然后重建特征计算为所有查询原型的平均值。 3.3正交剩余项设置
直观上说剩余项和高级重构项不应该相互代表这意味着它们应该是正交的。
残余特征为提取特征与重建特征之差进行计算。来自多个中层的终极特征将被动态加权以线性预测残差项。
每个圆代表一个标量扇形区域中的每个箭头表示一个L2归一化向量蓝色圆圈表示层权重。由于向量可以分解为两个方向L2归一化向量和长度L2范数我们分别预测残差项的方向rc(x,W)即棕色箭头和长度即棕色圆圈。
最终预测向量的方向rchat和长度rshat是每个方向的加权组合rl其中rslhat是从中间层转换而来的并通过层特定权重和als加权蓝圆圈而来。
4.实验结果 点击下方卡片关注《学姐带你玩AI》
持续更新跨域小样本系列
220篇人工智能必读论文PDF免费领
码字不易欢迎大家点赞评论收藏