摘要: 长期以来,建模中的偏见一直是公众关注的问题,现在被放大并关注可能对非裔美国人造成的不同治疗模式。定义和纠正偏差给数据科学家带来了难题,在得出结论之前需要仔细考虑。
6442112854对建模中潜在偏见的讨论和呼声并不是什么新鲜事。我们在 2018 年首次写到它,当时人们普遍担心个人受到我们模型结果的不公平影响。至少自 2008 年以来,对 AI/ML 进行伦理调查的学术领域就已经存在。这一次发生的变化是,它特别关注其对特定种族(非裔美国人)的潜在影响。
看起来很多人都在做准备就绪的例行公事,在完全理解原因之前匆忙下结论,最重要的是让我们数据科学家有机会在确实需要时进行修复。
请注意,我只是在谈论数据科学领域和模型的影响。窒息、警察过度使用武力,或公众对任何少数族裔的其他明显令人反感的行为,都应该在关于数据科学的对话之外直接解决。
新闻中出现最多的模型是面部识别和预测性警务。是的,警方最近根据面部识别错误地逮捕了一名非裔美国人,并将他关押了 30 个小时,然后才意识到他们认错人了。从数据科学的角度来看,这是一个误报问题,也可能是一个训练集问题。有没有人教育警察用户?
加利福尼亚州圣克鲁斯市最近禁止预测性警务。是的,预测性警务希望根据历史数据将资源分配到最有可能发生犯罪的地方。
我不主张或反对这些行动中的任何一个。我希望看到更平衡的对话,包括数据科学社区关于如何让事情变得更好的对话。
关于那次谈话中的平衡话题,特别令人担忧的是,我们自己的专业组织和研究人员正在赶上这股潮流,并试图关闭他们认为不道德的研究路线。
主要的 AI 会议是发表研究的真正守门人。正如 Quartz 报道的那样,神经信息处理系统年度会议刚刚宣布,他们现在将需要一份关于所提出的研究如何影响社会的“更广泛的影响声明”。自然语言处理经验方法会议将开始以伦理为由拒绝论文。
这就是经典的奥威尔式难题,即谁在观察观察者。对于一个社会是否需要在评估结果之前先发制人地审查学术调查路线,我愿意接受你的评论。
回到偏见的话题
正如我们在原始文章中所描述的,实际上存在许多不同类型的偏见。Microsoft 确定了五种类型:关联偏差、自动化偏差、交互偏差、确认偏差和数据集偏差。其他人使用不同的分类法。
甚至还有一个专门讨论该主题的完整会议:公平、问责和透明度会议(最近将其首字母缩写词从 FAT* 更改为 FAccT——谢天谢地)现在已经是第七个年头了。
然而,我们不应该将可能对特定少数群体(被捕、保释、贷款、保险、工作或房屋)的生活产生负面影响的社会有害偏见混为一谈我们的自我选择,比如我们选择阅读的内容或我们选择的朋友。
当我们上次查看这个时,我们得出结论,保险和贷款等受监管的行业被排除在查看具体或通过推断(例如邻域)表明种族的变量实际上在消除种族偏见方面做得很好。向每个合格的客户提供贷款或保险符合他们的利益,我们对他们的建模施加的限制似乎做得很好。
我们需要提防不受监管的行业——其中最重要的是公共机构
毫不奇怪,公共机构(在这种情况下是警察)中使用据称具有种族偏见的模型使公众关注这些模型。少数族裔面临的高风险后果在公共部门尤为严重。
考虑一下我们之前由 AI Now Institute 提出的研究中的这些示例,这些示例没有显示有偏见的模型,而只是错误的问题定义假设。尽管如此,他们已经或曾经产生过种族影响。
教师评价: 这是一个在纽约法庭上提起诉讼的有争议的模型,它根据学生的进步程度(学生增长百分比)对教师进行评分。长话短说,长岛一位经常被评为“高效”的老师突然被降级为“无效”,因为她的学生群体的进步率超出了她的控制范围。这有点复杂,但它带有糟糕的建模和错误的假设,而不是模型中的偏见。
学生学校匹配算法: 好学校已成为家长追捧的稀缺资源。非营利性 IIPSC 创建了一个分配模型,用于将学生分配到纽约、波士顿、丹佛和新奥尔良的学校。核心是一种算法,可为每个学生生成最好的学校录取通知书。
该模型结合了来自三个来源的数据: 家庭实际希望他们的孩子就读的学校,按优先顺序列出;系统中每所学校每个年级的可用座位数;以及管理每所学校录取的一套规则。
从文章来看,这听起来更像是一个专家系统,而不是一个预测模型。此外,有证据表明它并没有改善处境最不利的学生的命运。充其量,该系统无法透明。在最坏的情况下,基础模型可能完全有缺陷。
它还说明了公共部门特有的风险。该系统受到学校管理人员的广泛赞誉,因为它大大减少了重叠的截止日期、多次申请和一些招生游戏所带来的工作量。因此,它似乎使该机构受益,但不一定是学生。
COMPAS 再犯预测:有一个我们可能都可以从公共部门达成共识的偏见例子,那就是 COMPAS,一种在法庭上广泛用于预测谁会再犯罪的预测模型。美国各地的法官都使用 COMPAS 来指导他们关于量刑和保释的决定。一项著名的研究表明,该系统对黑人有偏见,但并不像你想象的那样。
发现 COMPAS 可以以大致相同的速度正确预测黑人和白人被告的累犯率。然而,黑人的误报率几乎是白人的两倍。也就是说,当 COMPAS 出错时(预计会再次犯罪但没有),它对黑人犯错的频率是其两倍。有趣的是,它对白人做出了对称的假阴性预测(预测不会再犯罪但确实如此)。
医疗保健:虽然我们可能不会立即将医疗保健视为公共部门,但在非裔美国人中,它绝对是由公众信任分配的资源,而不是许多其他人所经历的私营部门版本。有许多研究表明,用于定义最佳治疗的医学模型对非裔美国人有偏见。当推荐不同的模型为这个少数群体规定不同的治疗时,他们经常被驳回,因为“自称的种族身份是社会建构的,可能与一个人的生物种族不同……”作为不支持这种治疗成本的理由。
纠正错误来源
是什么导致模型出错,但对人口的某些子集有很高的置信度?过去,我们总是以数据不足为来源。
2808358224如果有足够的数据同样代表我们想要保护的每个社会特征(通常是受监管行业中的种族、性别、性别、年龄和宗教)的结果,那么建模总是公平的。
听起来很简单,但实际上比这更微妙。它要求您首先准确定义您想要的公平类型。是通过代言吗?每个受保护群体的代表人数是否应相等(均等)或与其在人口中的百分比成比例(成比例的均等/不同的影响)?
还是您更关心建模中可以最小化但永远无法消除的误报和漏报的影响?
如果您的模型影响很小比例的人口(例如罪犯或患有罕见疾病的人),这一点尤其重要。在这种情况下,您必须进一步决定是否要防止误报或漏报,或者至少在每个受保护组的这些事件中具有同等地位。
它也可以是模型吗?
过去,我们一直认为我们的建模工具是完全客观的,它们本身永远不会成为偏见的来源。这仍然是正确的。但这可能是我们缩短建模周期并开始依赖深度
神经网络或同样不透明的集成树的方式。
我在这里暗示的是,在建模历史的早期,第一步几乎总是聚类并测试不同的模型是否不能更好地预测不同聚类的结果。DNN,尤其是多类分类器,可能让我们从这种常见做法中分心。或许,与医学模型一样,可以预测更准确的结果,这些结果可能在某种程度上(如果不是完全地)按照种族界限来定义。
这可能是也可能不是答案。那是为了实验来揭示。但是,这里有一个潜在的问题我们应该浮出水面。
在具有社会重要性并依赖于平等待遇和公平观念的问题上,我们是否准备好捍卫看似双重标准的东西?
我的意思是,假设在对非裔美国人和假设的其他所有人的量刑中使用了不同的模型来代替 COMPAS 模型。或者可能有几个基于数学推导的不同模型,但可能沿着种族或至少社会经济路线。
每个模型中的变量及其权重将根据训练数据以数学方式得出,从而提供最准确的结果。但是,但是,但是它们实际上可能是不同的变量,在不同的组中具有不同的权重。
我将此作为您可能想要评论的悬而未决的问题。作为一名数据科学家和公民,您能否为不同的群体使用不同的标准来获得更准确的结果?还是这真的是经典的双重标准?
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选