小小的图像,大大的偏见

研究人员在Tiny Images(一组32×32像素彩色照片)中的近8000万张照片中发现了种族主义,厌恶和侮辱性标签。 麻省理工学院的计算机科学和人工智能实验室从其网站上删除了Tiny Images,并要求用户也删除其副本。

University College of Dublin和身份验证初创公司UnifyID对多个大型视觉数据集进行了“道德审核”,每个数据集包含数百万个图像。 他们专注于Tiny Images,作为社会偏见在机器学习中如何扩散的一个例子。

  • 普林斯顿大学的心理学家和语言学家在1985年编制了一个名为 “WordNet “的单词关系数据库。他们的工作已经成为自然语言处理的基石。
  • 2006年,麻省理工学院CSAIL的科学家通过在互联网上搜索与WordNet中的单词相关联的图像,编制了Tiny Images。该数据库包括基于种族和性别歧视,因此Tiny Images收集了标有此类词汇的照片。

数据集的创造者在一份声明中说:“偏见、冒犯性和偏见性的图像以及贬义的术语疏远了我们社区的一个重要组成部分——正是我们正在努力包含的那些内容。”

社会偏见–在数据和模型中,在行业中,以及在整个社会中–已经成为机器学习社区的一个主要问题。

  • 上周,一种名为Pulse的生成模型将Barack Obama的一张像素化照片转换成了一张白人的高分辨率图像,人们对人工智能偏见的担忧再次升温。
  • ImageNet的编译器最近从数据集的person子树中剔除了被认为有偏见或冒犯性的标签(同样基于WordNet)。

训练数据中编码的社会偏见与机器学习的基础交织在一起。 WordNet将其贬义,刻板和不准确的信息传递给Tiny Images,而Tiny Images可能已经将它们传递给了无数实际应用。

作为AI从业者,我们有责任重新审查我们收集和使用数据的方式。 例如,Cifar-10和Cifar-100源自TinyImages。 我们不了解这些数据集中的偏差,但是当一个数据集的偏差可能传播到另一个数据集时,有必要跟踪数据来源并解决上游数据源中发现的任何问题。 最近的提案为记录模型数据集制定了标准,以便在有害偏差生根之前将其剔除。