计算机视觉中的不公平性挑战

一、引言

不公平现象反应了模型对数据的偏见认知。例如,长尾分布(Long-Tail Distribution)[1]令模型偏好实例数多的头部类别;汉斯效应(Clever Hans Effect)[2]令模型错误的将非鉴别性特征视为判别依据;相似性偏差(Similarity Bias)[3]令模型混淆语义相似的不同目标。因此,抑制不公平性可以增强模型对数据的认知能力,进而提升模型性能。

在接下来的章节中,本文将分别介绍长尾分布、汉斯效应与相似性偏差的概念,典型任务场景及优化策略,并讨论这三种不公平因素间的关联性与未来研究的可能方向。

二、长尾分布

2.1 介绍

长尾分布表现为模型对不同类别的数据有不同的偏好程度。具体来说,在经过数据分布不平衡的训练集训练后,模型会偏好实例数多的头部类别(Head Class),并忽视实例数少的尾部类别(Tail Class)。这种偏好来源于经验风险最小化[4](Empirical Risk Minimization)的训练目标,即利用训练数据的经验风险来代替现实世界的期望风险,并令尽可能多的样本被正确处理。最终,模型向着数据分布的高频区域所优化,高频出现的头部类别获得了充分的学习,低频出现的尾部类别被忽视。图1(a)展示了长尾分布的一种数据分布[1],各类别的实例数随着类别序号的增加而减少。图1(b)展示了在长尾分布的训练数据下,模型在测试集上的评估结果,各类别精度与该类别实例数相关。

1.png

图1:(a) CIFAR100-LT[1]在不平衡率为100时的样本分布;(b)该分布下的模型精度

长尾分布是广泛存在的。一些实例之间是互斥的任务能够有效避免实例级别的长尾分布,例如,在单标签图像分类数据集CIFAR100[5]中,每个类别的实例数是一致的。一些实例之间并不互斥,相互交叠的任务难以避免实例级别的长尾分布,例如,在多标签图像分类数据集VOC2007[6]中,几乎有一半的训练数据包含人这个类别。长尾分布并不局限于实例上的数据分布,也可以是空间上的数据分布。例如,在语义分割数据集ADE20K[7]中,有15%像素的类别是墙;在姿态估计数据集COCO[8]中,所有关键点的绝对位置都靠近中心,且上身的相对位置在下身的上面,如图2所示。

2.png

图2:COCO数据集关键点分布可视化

1.2 优化策略

长尾分布是显式的不公平现象,它直接以各类别实例数的多少预告了模型对各类别的偏好程度。因此,多数方法基于各类别实例数而设计优化策略。接下来,本文归纳了四类优化策略的出发点与实现方式。

(一)损失权重再分配[9](Re-Weight)。经验风险最小化是通过各实例的损失值来分配模型的训练资源的,这意味着如果让各类别在训练时有着相近的总损失值大小,那么各类别所得到的训练资源就是相近的。因此,如果假设所有实例的损失值都一样,那么将该类别的损失权重设为该类别的实例数的倒数,就能让不同类别有着相同的总损失值。这种策略简单有效,但无法改变尾部类别实例数少的特点,稀少的实例数难以让模型学习到该类别的鉴别性信息。

(二)训练样本重采样[10](Re-Sample)。与损失权重再分配类似,该策略同样是在不改变训练分布的前提下重新分配了训练资源,即让不同类别拥有相近的训练资源。该策略的改进点在训练集的采样上,一种简单的实现是重复采样尾部类别的实例,令模型在一轮训练中重复认知同一个样本。本文认为,不考虑计算效率,在所有实例损失值一样的假设下,训练样本重采样与损失权重再分配是相似的,即前者在样本数上分配权重,后者在损失值上分配权重。此外,从损失权重的视角能观察到特征分布,从训练样本的视角能观察到数据分布,因此这两种策略还能基于这些分布来进一步改进。

(三)尾部样本数据增强[11]。长尾分布的本质是训练样本不平衡,因此扩充样本能够缓解长尾分布的影响。如果不引入新的数据,那么扩充样本最简单的策略就是数据增强。因此,对尾部类别的实例进行多样的数据增强,可以缓解长尾分布的影响。然而,本文认为数据增强只能基于现有的数据分布进行增强,这远远不如引入新数据所带来的新数据分布有效。但这种策略或许能够有效应用于故障检测等方法,即根据现有的故障类型选择数据增强策略,来扩充尾部类别中的故障样本。

(四)尾部样本特征增强[12]。从数据层面可以扩充尾部样本,自然而然也能从特征层面扩充尾部样本。但与简单的改变数据不同,尾部样本的特征增强更像是增强对尾部类别鉴别性信息的理解。这可以从困难样本的角度出发,挖掘困难样本与简单样本间共存的鉴别性信息;也可以从头部类别的鉴别性特征出发,将头部类别的鉴别模式迁移至尾部类别上。

总结来说,由于经验风险最小化的训练目标,长尾分布的训练数据会令模型偏好头部类别并忽视尾部类别。现有的优化策略通常是基于数据分布的,即在有限的数据下令尾部类别的实例受到更充分的学习。本文认为长尾分布的影响也可以从小样本学习(Few-Shot Learning)或知识蒸馏(Knowledge Distillation)的角度来缓解,因为小样本学习能够充分利用有限的样本,而知识蒸馏能够从复杂的特征分布中压缩出有效的鉴别模式。

三、汉斯效应

3.1 介绍

汉斯效应的命名来源于一匹叫Hans的德国马,它被认为会进行数学计算,但实际上只是根据人类不自觉的肢体语言而做出反应[2]。汉斯效应表现为模型错误的将非鉴别性特征作为判别依据。具体来说,由于背景、视角、光照等非鉴别性特征作为共现特征,频繁的与目标信息同时出现在同一个实例中,非鉴别性特征与鉴别性特征建立了虚假相关性,这使得模型同样能利用非鉴别性特征完成正确判别。举例来说,如图3所示,飞机的经典背景是天空,尤其在远距离拍摄时,天空图像占据了主要的图像空间。这意味着在VOC2007[6]这类没有天空类别但有飞机类别的任务中,即便我们只输入一张天空图像,模型会认为这张图像大概率属于飞机这个类别。在更极端的条件下,即便输入的是纹理平滑的全零图像,由于天空同样是纹理平滑的,模型错误的将全零图像与天空相联系,而天空又是飞机的共现特征。最终,模型以51.6%的概率将全零图像视为飞机[13]。

3.png

图3:VOC2007[6]中的飞机实例

汉斯效应是广泛存在的。从数据自身的特点来讲,一类对象通常有与其相关的活动场景与活动对象,这使其数据分布自然产生无关的共现特征。例如,企鹅常出现有水/冰的寒冷环境中;床通常会贴着墙放。这种与无关事物强耦合的特点使得部分类别难以摆脱共现特征引发的汉斯效应。从数据采集的特点来讲,训练数据通常会从若干特定的数据源进行采集,而数据源本身有自己的数据分布。例如,从监控摄像头采集行人的运动轨迹,通常局限于有限空间范围内的有限摄像头视角;高耸树木通常以仰视角拍摄,低矮灌木通常以正视或俯视的角度拍摄;即便是同个数据集,也可能无意识采集到视角差异等不同分布的数据,如图4所示。

4.png

图4:CIFAR100的橡树与枫树的拍摄视角相似,而松树的拍摄视角与前两者不同

3.2 优化策略

定位共现特征可以有的放矢的设计方法抑制汉斯效应。最朴素的策略是手动观察同一类数据的所有实例,判断存在哪些共现特征可能产生汉斯效应。但更简便的方法是基于模型的特点自动化分析模型对特定类别的关注区域。一种简单的策略[14]是随机擦除图像的一部分区域,观察分类结果的变化方向,进而判断该区域是否存在重要的判别依据。类激活映射(Class Activation Mapping, CAM)相关方法[15]能够分辨出图像各区域对各类别的激活强度,这可以发现对分类有贡献的图像区域。利用上述方法分析图像各区域对各类别的贡献度后,定位不在目标对象上的高激活区域,就能分析出哪些非鉴别性特征被错误视为判别依据。

汉斯效应的优化策略主要从成因出发,可以分为无先验知识的和有先验知识的。无先验知识的优化策略从共现特征的特点出发。例如,视角、光照与纹理是一种典型的共现特征,那么可以用随机翻转/旋转、颜色抖动与模糊等数据增强抑制这些非鉴别性特征的频繁出现。此外,随机擦除[16]与随机剪裁能通过模拟遮挡来缓解共现特征的产生。有先验知识的优化策略则是针对性的去除非鉴别性特征。例如,利用分割模型为背景图像打上掩码、用生成模型替换背景。又或者引入人类解释[17],针对性的抑制非鉴别性特征的相关区域或模型路径。

总结来说,由于共现特征的存在,模型不自主的会将非鉴别性特征错误视为判别依据。现有的优化策略主要从成因出发,即从数据或模型层面抑制共现特征的表达。本文认为,汉斯效应的优化也能从结果出发,即找到能引发汉斯效应的影响位置与影响方式,抑制汉斯效应在这些位置上的影响。例如,利用类别无关的数据不应产生分类偏见的特点[13],抑制分类偏见的表达,进而抑制汉斯效应的表达。

四、相似性偏差

4.1 介绍

相似性偏差指的是两个不同类别的对象在粗粒度(Coarse-grained)上极为相似,仅在细粒度(Fine-grained)上有微小差异,进而令模型混淆了两者的类别。相似性偏差的一个代表性任务是换装行人再辨识。在传统行人再辨识[18]中,只需要在不同摄像头下辨识出行人的身份即可,这意味着粗粒度的服装信息可以作为判别依据,因为部分行人在不同摄像头下依然会穿着同样的服装。然而,如图5所示,在换装行人再辨识[19]中,这种粗粒度的服装信息成为了纯粹的噪声信息,与身份解耦变为了身份无关数据,身份辨识只能依赖于面部、体型、步态与姿势等存在于局部细节中的细粒度信息。同时,现实世界对行人再辨识的要求是换装鲁棒的,这样才能实现换装嫌疑人的有效捉拿。因此,摆脱粗粒度信息的相似干扰,利用局部的细粒度信息极为重要。

5.png

图5:换装行人再辨识中,不同人可以穿着相似的服装,身份辨识依赖于局部细节

相似性偏差是普遍的,尤其在所有目标都极为相似的一些特定任务中是主要挑战。在大多任务上,相似性偏差仅会引起少数几个类别间的混淆。例如,在语义分割数据集ADE20K中,有包括人、车、山、草、树、建筑、桌子、盘子等150个现实世界用于场景理解的类别,其中又有水、湖、河、海4个类别。很明显,这四个类别都由水组成,只有面积、位置、周边对象等细粒度信息存在差异。在少数任务上,相似性偏差存在于所有类别中。例如,在前文描述的换装行人再辨识[19]中,所有行人身份只有面部等细粒度信息的差异。在如鸟类分类[20]等物种分类任务中,所有物种只能通过细粒度级别的生物学差异来区分。在电网维护[21]等自动化维护场景中,一些维护对象也极为相似,例如木质电塔与混合电塔只有材质上有差别。

4.2 优化策略

相似性偏差的产生在于粗粒度的相似与细粒度的差异。因此,其优化策略也可以从这两个方面区分,即排除粗粒度相似与捕捉细粒度差异。排除粗粒度上的相似,可以从样本间关系入手,令不同的样本间有着更大的差异。例如,余弦距离可以衡量不同特征间的距离,如果同类特征间距离较近,异类特征间距离较远,就意味着两个相似目标间的差异用于判别了。因此,可以通过度量学习构建三元组损失[22],令来自不同身份的特征之间的距离更大,并令来自同个身份的特征之间的距离更小。同时,度量学习也能用于提升对困难样本的学习效果。此外,排除粗粒度上的相似也可以从排除粗粒度特征的影响入手,例如使用对抗损失[19]抑制服装对换装行人身份辨识的干扰。

细粒度上的差异通常是任务特有的,例如鸟类的物种识别需要从喙、眼、翼与尾等部位进行分析,而行人的身份辨识需要从面部与姿态等信息上分析。以换装行人再辨识为例,面部特征的细粒度学习可以通过一个训练好的目标检测器提取面部图像,再将其送入一个专门的支路进行学习;姿态的学习可以利用姿态估计模型或者通过额外的素描或轮廓图像。此外,也可以从数据增强的角度入手,例如调整图像中不同区域的比例,放大靠近行人身份的区域,缩小远离行人身份的区域,让模型更多关注于局部细节中。

五、总结与讨论

现有工作都很好的缓解了不公平性的影响。在长尾分类上,有研究从数据的角度出发,抑制不公平性在数据中的表达;有研究从模型的角度出发,增强模型对尾部数据的学习效果。在汉斯效应上,有研究关注于发现汉斯效应的手段;有研究从汉斯效应的成因出发,避免共现特征的产生;有研究从先验知识的角度入手,增强鉴别性特征在判别依据中的主导地位。在相似性偏差上,有研究选择避免粗粒度级别的相似,抑制粗粒度特征在不同类别间的表达;有研究选择强调细粒度级别的差异,增强细粒度特征在判别依据中的作用。不论策略如何,现有工作都很好的通过公平优化的手段改善了模型对数据的认知。

不同的不公平因素从不同的角度影响模型认知,但它们又存在共同的特点。例如,长尾分布的源头是头部数据的频繁出现,汉斯效应的源头是共现特征的频繁出现,这意味着两者都对于某些分布过度自信。汉斯效应强调了无关区域的非鉴别性特征,相似性偏差强调了相关区域的粗粒度特征,这意味着两者都稀释了关键特征的作用。综上所述,如果能从多种不公平因素的共性出发,就能够同时优化多种不公平性。本文认为,这种通用策略可以从由果及因的角度出发。例如,定位一个理论上具有公平性的结果[13],当结果产生不公平性时,则必然是由多种不公平因素影响而产生的。这可以在不关注不公平性类型的前提下,通用的优化不同不公平性。

参考文献

[1] Cao K, Wei C, Gaidon A, et al. Learning imbalanced datasets with label-distribution-aware margin loss[J]. Advances in Neural Information Processing Systems, 2019, 32.
[2] Anders C J, Weber L, Neumann D, et al. Finding and removing clever hans: Using explanation methods to debug and improve deep models[J]. Information Fusion, 2022, 77: 261-295.
[3] Chen Q, Huang T, Liu Q. SWRM: Similarity window reweighting and margin for long-tailed recognition[J]. ACM Transactions on Multimedia Computing, Communications and Applications, 2024, 20(6): 1-18.
[4] Vapnik V. Principles of risk minimization for learning theory[J]. Advances in Neural Information Processing Systems, 1991, 4.
[5] Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images[R]. University of Toronto, 2009.
[6] Everingham M, Van Gool L, Williams C K, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88: 303-338.
[7] Zhou B, Zhao H, Puig X, et al. Scene parsing through ade20k dataset[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA, 2017:633-641.
[8] Lin T, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]. European Conference on Computer Vision, Zurich, Switzerland, 2014:740-755.
[9] Lin T, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 2017:2980-2988.
[10] Shi J, Wei T, Xiang Y, et al. How re-sampling helps for long-tail learning?[J]. Advances in Neural Information Processing Systems, 2023, 36.
[11] Wang B, Wang P, Xu W, et al. Kill two birds with one stone: Rethinking data augmentation for deep long-tailed learning[C]. International Conference on Learning Representations, Vienna, Austria, 2024.
[12] Deng X, Wang X, Sun Y, et al. EIFA-KD: Explicit and implicit feature augmentation with knowledge distillation for long-tailed visual data classification[J]. Pattern Recognition, 2025: 112129.
[13] Pan W, Zhu J, Zeng H. Fair training with zero inputs[C]. Proceedings of the AAAI Conference on Artificial Intelligence, Pennsylvania, USA, 2025:6317-6325.
[14] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]. European Conference on Computer Vision, Zurich, Switzerland, 2014:818-833.
[15] Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Nevada, USA, 2016:2921-2929.
[16] Zhong Z, Zheng L, Kang G, et al. Random erasing data augmentation[C]. AAAI Conference on Artificial Intelligence, New York, USA, 2020:13001-13008.
[17] Linhardt L, Müller K-R, Montavon G. Preemptively pruning Clever-Hans strategies in deep neural networks[J]. Information Fusion, 2024, 103: 102094.
[18] Zheng L, Shen L, Tian L, et al. Scalable person re-identification: A benchmark[C]. Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 2015:1116-1124.
[19] Gu X, Chang H, Ma B, et al. Clothes-changing person re-identification with rgb modality only[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Louisiana, USA, 2022:1060-1069.
[20] Wah C, Branson S, Welinder P, et al. The caltech-ucsd birds-200-2011 dataset[EB/OL]. https://authors.library.caltech.edu/27452/1/CUB_200_2011.pdf, 2011.
[21] Abdelfattah R, Wang X, Wang S. TTPLA: An aerial-image dataset for detection and segmentation of transmission towers and power lines[C]. Proceedings of the Asian Conference on Computer Vision, Kansai, Japan, 2020:601-618.
[22] Zhu J, Wu H, Zhao Q, et al. Visible-infrared person re-identification using high utilization mismatch amending triplet loss[J]. Image and Vision Computing, 2023, 138: 104797.

版权声明:
作者:MWHLS
链接:https://mwhls.top/5095.html
来源:无镣之涯
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
< <上一篇
下一篇>>