随着人工智能在数十个行业中无处不在,新技术的最初炒作开始被构建值得信赖的人工智能系统的挑战所取代。我们都听过头条新闻:亚马逊的人工智能招聘丑闻, IBM 沃森的6200万美元的肿瘤学失败,现在臭名昭著COMPAS 累犯歧视黑人被告的模型。
人工智能失败在大型组织中变得司空见惯,它们引起了公众、媒体和监管机构等的正当审查和愤怒。
人工智能可以从根本上改变一个组织,但就像人类决策一样,人工智能系统有很多可能出错的方式——不准确、过度自信、偏见、隐私问题以及许多其他风险都可以编码到组织的人工智能中。而且,由于单点故障在涉及自动化决策时可能会产生巨大影响,因此一次性解决方案和工具并不能解决更广泛的 AI 信任问题。为了让组织能够信任他们的人工智能模型,他们必须从整体的角度来解决信任问题——理解人工智能在其发展的每个阶段(从数据预处理到模型)如何失败的高层次图景构建和部署。
最终,成功实施可信赖的企业 AI 需要三个主要的可信 AI 支柱:
1. 性能
2. 运营
3. 道德
性能与以下问题有关:“我的模型使用数据进行预测的能力如何?” 模型准确性是最常讨论的性能维度,但信任 AI 的预测需要的不仅仅是准确性。性能还包括标准,例如数据质量,您的模型对脏数据或缺失数据的鲁棒性,以及它可以做出预测的速度。
操作与以下问题相关:“部署我的模型的系统的可靠性如何?” 这一支柱确保您可以在现实世界中信任您的模型——数据混乱且动态,法规比比皆是,安全性始终是一个问题。许多在沙盒中表现完美的模型一旦部署并使用真实数据进行测试,最终就会崩溃。
道德与以下问题相关:“我的模型是否符合我所在组织的道德和价值观?” 或者,换一种说法:“我的模型对世界有什么影响?” 这是可信AI最重要的要求,也是最容易被忽视的。道德包括偏见和公平等标准、模型产生的价值以及其决策的可解释性。最终,如果您的模型对世界和您的组织的影响是负面的,那么您的模型是否准确和可靠都无关紧要。
详细了解这些支柱中的每一个很重要,我将在一个三部分的系列中进行介绍。首先,让我们深入探讨人工智能成功的第一个支柱——性能——以及它如何成为成功实施可信人工智能的一个关键方法。
性能:可信 AI 的第一支柱
性能在整个 AI 生命周期中都很重要,但首先在数据清理和模型构建阶段进行评估。这是在沙箱中测试模型时,目标是在将其部署到现实世界之前构建具有最高性能的模型。
性能测试的主要标准是:
1. 数据质量
2. 准确性
3.速度
数据质量
数据质量是所有值得信赖的 AI 的基础:正如老话所说,“垃圾进,垃圾出”。即使是最先进的
机器学习模型无法弥补低质量的数据。
确保数据质量的第一种方法要求您跟踪数据的来源。许多 AI 项目需要组合来自多个来源的数据:内部数据仓库、第三方数据,甚至开源数据集,例如人口普查记录甚至天气报告。了解 AI 系统使用的不同数据源至关重要。这有助于在导致实际故障之前识别不兼容的数据和糟糕的数据收集方法等问题。
确保数据质量的第二种方法涉及将数据清理作为 AI 管道的一部分。通过计算每个特征的汇总统计、计算特征与目标和其他特征的相关性,甚至修改数据,您可以得出有关数据的有意义的见解。最终,您可以使用诸如估算缺失值、删除重复行和删除“泄漏”特征等技术来显着提高模型的性能,这些特征对预测期间未知且导致过度自信的数据进行编码。
可信 AI 必须对脏数据具有鲁棒性。这也意味着数据清理不能被认为是在建模开始之前只执行一次的单一过程。相反,模型训练期间使用的这些数据清理技术必须构建到用于模型预测的同一可重复管道中——每次模型接收到新数据时,它都必须再次执行所有必要的数据清理。这确保了模型在部署到现实世界后不会立即中断。
准确性
准确性是性能中最常被分析的组成部分,但它涵盖了广泛的不同类型的分析。Accuracy 试图通过汇总模型的预测来生成有关模型错误率的见解,但有许多不同的方法来衡量它。
坚实的数据科学基础,例如样本外测试和交叉验证在评估您的模型时必须是赌注。您还必须确保使用非常适合手头问题的错误度量——例如,Log Loss 和 RMSE 分别是二元分类和回归问题的默认值,但在某些情况下您想要使用不太常见的准确度指标。仔细选择准确度指标很重要。
此外,您可以通过以下见解深入挖掘模型的准确性混淆矩阵,它可以让您评估您的模型最有可能犯的错误类型,例如“误报”与“误报”。提升图和 ROC 曲线也可以帮助填补准确性难题的其他部分。评估准确性对于值得信赖的 AI 至关重要,并且有许多不同的技术可用于产生更深入的理解。
速度
想象一下,有人告诉你,你的自动驾驶汽车每三秒只能做出一次决定。很明显,你不应该相信人工智能系统会影响你的生活。每个模型,无论其功能如何,在做出预测的速度上都有一些限制——无论是三毫秒、三秒还是三周。
通常,最准确的模型也是最慢的,例如复杂的混合器和在顶级硬件上训练的深度
神经网络。纯粹为了准确性进行优化可能会导致模型在其他方面失败,例如成本、可解释性以及与性能最相关的速度。在选择模型之前,您必须确保它可以在用例的适当时间范围内返回预测。
除了模型选择之外,还有一些方法可以提高模型速度,例如对数值数据使用稀疏矩阵,以及从数据集中删除不必要/不重要的特征。通过仅使用数据集的前 10 个最重要的特征来训练模型,即使它总共包含数千个不同的特征,通常也可以获得相同甚至更好的准确度。
性能是成功实施值得信赖的企业 AI 的第一支柱。但这些支柱都不能独立存在。例如,一旦部署了模型,就必须不断测试这些性能标准,以确保不会出现退化。性能和操作在一个称为 ML Ops 的领域相交。在我们的下一篇文章中,我们将深入探讨作为可信 AI 的第二大支柱的运营。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|