建设外汇网站,wordpress中文主题排行榜,最好wordpress积分付费插件,个人网站首页布局文章首发于我的博客#xff1a;https://mwhls.top/5032.html 前言
太长不看
[AAAI 2025 Oral] Fair Training with Zero Inputs对于类别无关的全零图像#xff0c;模型不应偏向于任意类别。
基本信息
本人为第一作者潘文杰#xff0c;通讯作者为朱建清教授#xff0c;作… 文章首发于我的博客https://mwhls.top/5032.html 前言
太长不看
[AAAI 2025 Oral] Fair Training with Zero Inputs对于类别无关的全零图像模型不应偏向于任意类别。
基本信息
本人为第一作者潘文杰通讯作者为朱建清教授作者均来自于华侨大学。相关下载 论文下载doi.org/10.1609/aaai.v39i6.32676代码开源https://github.com/asd123pwj/ZUT开源代码的训练结果https://drive.google.com/drive/folders/1hWFJ2n4LnGnnD2r-C6dLyE31-0UJldfw?uspdrive_linkOral PPT及海报https://drive.google.com/drive/folders/1hWFJ2n4LnGnnD2r-C6dLyE31-0UJldfw?uspdrive_link 开源说明 语义分割基于MMSegmentation 1.2.1且开源代码在原始代码上重新部署可与原始代码对照查看修改位置。ReID代码基于Simple-CCReID或将在扩刊接收后开源。分类代码基于MMPretrain 1.1.1由于其未原生实现多loss因此损失改造的较为丑陋是直接与现有损失结合因此无开源计划。
实现简单
核心思想可用五行代码概括见论文或本文后的伪代码在实际部署时仅需修改训练循环中的几行代码即可. 例如在ICLR 2021的logit-adjustment中对main.py在110~115行的代码修改如下。部分如MMSegmentation等封装较多的工具箱需要较多的修改因此开源代码首先放出MMSegmentation。
# 例如在ICLR 2021的logit-adjustment中对main.py在110~115行的代码修改如下。
if args.ZUT ! 0:img_zero input_var.new_zeros(1, *input_var.shape[1:]) # newinput_parallel torch.cat((img_zero, input_var), dim0) # newoutput_parallel model(input_parallel)output_zero output_parallel[0] # newoutput output_parallel[1:] # newacc utils.accuracy(output.data, target)if args.logit_adj_train:output output args.logit_adjustmentsloss criterion(output, target_var)loss output_zero.std() * args.ZUT # new --- ZUT End ---
else:output model(input_var)acc utils.accuracy(output.data, target)if args.logit_adj_train:output output args.logit_adjustmentsloss criterion(output, target_var)研究价值
个人认为这篇工作本质上是利用任务无关的数据优化模型难以量化的性能。在分类任务上这篇工作将全零数据作为类别无关数据通过抑制全零图像所揭露的偏见来改善模型公平性。也可以针对任务进行公平以外的优化例如 在语义分割上目标有位置先验例如天空出现在上方因此可以将位置分布如论文图3作为全零图像的标签来引入位置先验。在目标检测上背景与全零图像缺乏检测对象因此背景可以用于抑制检测框存在全零图像可以用于维持检测框的位置一致性如令不同位置的检测特征保持一致。在知识蒸馏上模型只需要传递对特定输入的输出因此可以只用噪声输入来传递模型输出避免对图像-标签对的依赖。在超分辨率上全零图像没有纹理变化全零放大之后还是全零因此全零图像可以抑制噪声同时根据已知算法构造输入图像与输出图像可以学习纹理信息同时摆脱生成低分辨率数据的下采样算法。在图像检索上可以拉远非目标对象与目标对象的距离例如服饰、背景、拍摄角度、光照等目标无关的数据。
论文介绍
这里主要介绍本工作发现的现象、相关概念、提出方法与主要实验。更多内容请见论文。
摘要
分类有两种公平性 长尾分布Long-tail distribution模型更偏向于实例数多的头部类别。 注在长尾分布中实例数多的类别称为头部Head类别实例数少的称为尾部Tail类别。注长尾分布造成的偏见来源于模型训练过程是一个经验风险最小化[1]的过程因此常出现的类别受重视罕见的类别被忽视。 [1] Vapnik V. Principles of risk minimization for learning theory[J]. Advances in Neural Information Processing Systems, 1991, 4. 注举例来说如果训练数据中有99%的狗1%的猫那么模型在分类时会更偏向于狗。 汉斯效应Clever Hans effect模型错误地将非鉴别性特征用于分类。 注非鉴别性Non-discriminative特征指的是与目标没有必然联系的无关信息例如背景、光照、拍摄视角等是常见的无关信息。注汉斯效应[2]来源于一匹叫Hans的德国马被误认为会进行数学计算但实际上是对肢体动作作出反应。 [2] Anders C J, Weber L, Neumann D, et al. Finding and removing clever hans: Using explanation methods to debug and improve deep models[J]. Information Fusion, 2022, 77: 261-295. 注举例来说如果训练数据只有黑狗和橘猫那么颜色会错误成为物种分类依据但现实世界也有黑猫颜色并不能作为依据。 在本文中我们发现类别无关Category-agnostic的全零图像能够同时揭露两种类型的不公平性。 注由于全零图像没有纹理变化值均为零通常不会归类于任一类别因此我们称其为类别无关。 基于此我们提出ZUT框架Zero Uniformity Training, ZUT以优化公平性。 ZUT框架将类别无关的全零图像并行地输入至模型并将结果送入ZUL损失Zero Uniformity Loss, ZUL以优化公平性。 注例如分类任务中输入(B, 3, H, W)的数据我们插入一个全零图像变成(B1, 3, H, W)以实现并行的计算。 ZUL损失通过均衡化全零图像对应的分类结果来消除对特定类别的偏见。 注例如二分类中全零图像在两个类上的分类概率为0.9, 0.1我们希望它能够得到0.5 0.5的均匀分布。 ZUT框架能够兼容于多种基于分类的任务。 注不只是图像分类任意使用分类器的任务应该都行例如像素级别分类的语义分割用于坐标回归的姿态估计。 实验表明ZUT框架能够在图像分类、换装行人再辨识与语义分割任务上提升多种SOTAState Of The Art, SOTA模型的性能。 注这三个任务中分类器有不同的用法 图像分类训练与推理均使用分类器。换装行人再辨识仅在训练使用分类器。语义分割训练与推理均使用分类器但在像素级别进行分类前两者在样本级别。
动机 如上图所示我们选择三份样本进行展示分别来自训练集、测试集与全零图像。 可以看到来自训练集与测试集的图像中目标类的概率远高于其它类别表明模型学习到了分类信息。 长尾分布 在数据1与数据3中“人”的概率相对其它负类更高。观察训练集分布发现几乎一半的数据包含“人”。 汉斯效应 数据3被分类为“飞机”、“鸟”、“船”的概率相对较高。这可能是因为这三者的背景通常是天空与海面而天空/海面的材质较为平滑和全零图像一样缺乏纹理变化。因此全零图像≈天空背景因为它们材质平滑同时天空背景≈飞机因为他们经常同时出现在一张图像。最终全零图像≈飞机分类概率为51.6%。 可以看到类别无关的全零图像本不应该被分类为人或者飞机但却错误的呈现了明显的偏见。 因此我们选择抑制全零图像在分类上的偏见来优化模型的公平性。
贡献
我们提出使用类别无关的全零图像来揭露由长尾分布与汉斯效应引起的分类不公平。我们提出ZUT框架其利用全零图像进行训练并使用ZUL损失抑制偏见进而优化模型公平性。ZUT框架在图像分类、换装行人再辨识、语义分割上提升了SOTA模型的性能。
方法-ZUT框架 ZUT框架如图2所示其伪代码如算法1所示。在图2中 现有的分类框架为左侧的绿色部分 B B B张图像输入至模型经过分类器得到分类结果后利用分类损失 L c l s \mathcal{L}_{cls} Lcls学习分类信息。我们提出的ZUT框架为右侧的蓝色部分并行地将全零图像输入至模型经过分类器得到分类结果后利用ZUL损失 L z \mathcal{L}_{z} Lz优化公平性。 在算法1中 首先生成全零图像 z z z全零图像的通道数、高度与宽度与正常图像一致。随后将全零图像 z z z与正常图像 x x x在 B B B维度进行拼接以实现并行的分类计算。将拼接结果送入模型与分类器得到分类结果 f f f。拆分分类结果 f f f以得到全零图像与正常图像的分类结果 v v v与 u u u。计算分类损失与ZUL损失为ZUL损失引入损失权重 α \alpha α损失相加以得到最终损失。 ZUT框架仅参与训练过程且损失权重 α \alpha α是唯一的超参数。ZUT框架的兼容性强因此我们将其应用在三个基于分类的任务上 图像分类训练与推理均使用分类器。行人再辨识仅在训练使用分类器。语义分割训练与推理均使用分类器但在像素级别进行分类前两者在样本级别。在图像分类与行人再辨识中其算法如算法1所示。对于语义分割由于其还需要在像素级别进行分类因此还需要考虑空间位置的影响具体将在下节讨论。
方法-ZUL损失
ZUL损失的优化目标是抑制分类结果存在的偏见我们设计了三种优化方式的ZUL损失 基于标准差的 L z s t d \mathcal{L}_{z}^{std} Lzstd分类特征差异最小化 基于均值的 L z m e a n \mathcal{L}_{z}^{mean} Lzmean分类特征向零优化 基于熵的 L z e \mathcal{L}_{z}^{e} Lze分类概率熵最大化 在图像分类与行人再辨识中分类特征都是一维的仅对类别进行分类。而在语义分割中分类特征是三维的是在空间位置上对类别进行分类。 因此语义分割的损失需要特别处理 一种简单的做法是在空间位置上也进行公平优化。 然而如图3所示我们可视化了语义分割经典数据集ADE20K发现目标有明显的位置先验。 这种位置先验与现实世界相符例如天空常出现在图像上方。同时像自动驾驶这类语义分割的典型应用任务中相机视角是固定的例如行人与车辆通常在固定区域出现。 因此我们利用全局平均池化Global Average Pooling, GAP保留位置信息仅对类别上总的概率分布进行公平性优化
讨论
输入类型 ZUT框架使用全零数据作为输入来均衡化分类输出。全零数据的使用目的是为了引入一个类别无关的数据这意味着任意类别无关的数据均可以被使用。例如在随机擦除[3]中使用的全一数据、正则化时的均值、随机值。 Zhong Z, Zheng L, Kang G, et al. Random erasing data augmentation[C]. AAAI Conference on Artificial Intelligence, New York, USA, 2020:13001-13008. 效率 ZUT框架只引入一个新的损失且并行的参与训练过程因此其训练性能消耗约为 1 B \frac{1}{B} B1。此外ZUT并不修改模型同时不参与推理阶段因此不影响推理性能如模型大小或推理速度。
实验-对比实验与消融实验
图像分类换装行人再辨识语义分割
本部分的所有实验均使用全零图像作为输入使用基于标准差的 L z s t d \mathcal{L}_{z}^{std} Lzstd作为损失函数。 在图像分类上我们以ResNet-50、Eva02-tiny、Riformer-s12与Poolformer-s12作为Baseline在VOC2007与CIFAR100-LT数据集上进行评估。在换装行人再辨识上我们以ResNet-50作为Baseline在PRCC、VCClothes、Celeb-ReID与CCVID数据集上进行评估。在语义分割上我们以VAN-{b0, b1, b2, b3}、ResNet-50、ConvNeXt-tiny与Poolformer-s12作为Baseline在ADE20K数据集上进行评估。 在语义分割上的可视化如下图可视化对象为分割解码器输出的 ( C , H , W ) (C, H, W) (C,H,W)分割特征。 图(a)中第一行第三列的高激活区域在图(b)上被抑制表明ZUT框架修正了这种不公平。在图©上分割结果更加集中从另一个角度展示了ZUT框架抑制不公平的能力。 实验-损失权重 在三个任务上损失权重的影响如上图。 可以看到损失的有效范围较大例如在VOC2007上从1~2000的损失权重均有效。 在换装行人再辨识数据集PRCC上的范围相对较小可能由于该任务公平性较高例如各身份的样本数大致相同且只能依靠面部、姿态等身份相关信息进行分类。
实验-输入类型 在三个任务上不同输入类型的影响如上表。 以全零图像的最优损失权重作为其余数据的损失权重。可以看到几乎所有类型均有效仅在换装行人再辨识数据集PRCC上均值表现不佳。 我们前期的猜测是由于该任务使用随机擦除作为数据增强而随机擦除同样使用均值导致两者冲突。但在后续的实验中我们发现调整一下损失权重就有效了因此和随机擦除的冲突可以通过调参优化。
实验-损失类型 在换装行人再辨识数据集PRCC上三个损失在不同权重下的表现如上表。 结果表明从不同方向抑制偏见的三个损失均有效。 损失曲线如下图。 可以看到损失权重先增后减表明模型无意识学习到了不公平性并被本方法有效抑制。第20、25、40轮有曲线波动来自于外部变化。在20与40轮学习率变化。在第25轮Baseline所用的CAL损失被启用。 引用本文
inproceedings{Fairness_ZUT_WJPan,author {Pan, Wenjie and Zhu, Jianqing and Zeng, Huanqiang},title {Fair Training with Zero Inputs},booktitle {Proceedings of the AAAI Conference on Artificial Intelligence},volume {39},pages {6317-6325},address {Pennsylvania, USA},year {2025},type {Conference Proceedings}
}