背景
每个行业都会受到算法和算法偏见的影响。但我们可以将其重新考虑为“算法会引入偏见还是引入透明度?
一篇有趣的论文说明了这一点。评估音乐版本识别的算法偏差 是一项关于音乐版本识别算法偏差的研究。在音乐产业中,版本识别 (VI) 系统是用于检测音乐作品的不同演绎以确定应付版税的机制。这里有三个利益相关者可以要求版税:原始艺术家,提供由艺术家和作曲家创作的表演的艺术家。VI系统有两种类型:学习型和基于规则的。该论文提出了一个框架,量化了 5 个系统和 6 个相关侧面属性的性能差异:性别、流行度、国家、语言、年份和流行度。通过使用这些属性和利益相关者对数据集中的记录进行分类,本文分析了所考虑的 VI 系统是否显示出任何隐含的偏差。
发现
作者发现他们在分析中包含的大多数组的识别性能存在差异的迹象。
他们还发现,学习和基于规则的系统在某些属性上表现不同,这表明在评估 VI 系统时需要考虑一个额外的维度以及准确性和可扩展性。
总体而言,他们观察到基于学习的系统对代表性不足的群体更有效。
对于流行度实验,他们发现所有系统都倾向于为流行艺术家和作曲家表现更好
语言实验的结果仅显示使用旋律特征的系统存在差异,用英语以外的语言录制的结果比用英语录制的要好。
他们观察到,与男性相比,基于学习的系统对女性艺术家/作曲家的效果更好。虽然这意味着女性作曲家可能会从这些系统中获得更多回报,但相比之下,执行现有作品版本的女性艺术家(即,查询的艺术家)可能会支付更多的版税。
作者观察到,基于学习的系统和基于规则的系统都显示出某些群体的表现差异。具体而言,基于学习的系统在 54.4% 的案例中表现出差异,而基于规则的系统这一比例仅为 30.4%。
作者对他们的发现提出了各种假设
他们讨论了他们方法的局限性,包括人类注释的局限性
他们与业界分享他们的发现和假设,希望能引起讨论
作者还分享了他们的数据集
分析
研究结果可以用几种方式解释
在准确性方面,基于学习的系统是一个缺点,但是因为它们可以很好地扩展,它们也有优势
对于性别属性,研究发现,与男性相比,基于学习的系统对女性艺术家/作曲家的效果更好。虽然这意味着女性作曲家可能会从这些系统中获得更多回报,但相比之下,表演现有作品版本的女性艺术家可能会支付更多的版税。“因此,由于具有多边结构,因此应独立考虑所有相关方对公平结果的解释。”
他们得出的结论是——作为总共 115 次实验的结果,我们已经看到 VI 系统在某些群体上的表现确实可能不同。他们的行为可能会有所不同,具体取决于他们是学习还是基于规则,或者他们是否使用基于旋律或色度的输入功能,但其他设计选择可能会产生影响。欧元
结论
问题是:这是算法偏差的情况,还是实施算法引起的透明度情况?我会争辩说,在这种情况下,讨论在一个众所周知的不透明行业中创造了更多的透明度。换句话说,我们不应该因为过程本身可能是不透明的,就得出算法有偏见的结论。此外,根据女性艺术家与女性作曲家的例子,偏见问题本身可能是主观的。从这个意义上说,算法的实施(当它们是可解释的)作为透明度的驱动因素可能对许多行业有益。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选