人工智能的真正价值不是先进和创新方法的吸引力,而是最终为您的业务增加价值的潜力。在开发过程中,当您训练您的模型并看到交叉验证折叠、保留和外部预测数据集的强大性能时,可能会很想铺开红地毯并展示结果。当然,在 模型中可以看到潜在 的商业价值,但随着时间的推移,我们如何保护和培育它呢?持续的模型性能可能是不可预测的和不稳定的,输入数据或业务流程可能会发生变化。如果没有保护该价值的总体基础设施,
人工智能就无法实现其预期的影响。
为生产模型创建和维护基础架构可确保只要企业保持勤奋,您的模型提供的价值就可以持续存在。有了这个系统,我们不仅可以从模型提供的价值中受益,而且可以确保透明度、稳定性和护栏。
可信人工智能的三大支柱:性能、运营和道德。 表现 包括数据质量、模型准确性和速度。在本文中,我们将研究我们的第二个信任支柱, 操作.
操作与以下问题相关:“部署我的模型的系统的可靠性如何?” 该支柱侧重于创建一个具有强大治理和监控的系统,将谦逊融入决策过程,并提供足够的透明度来满足监管要求。运营有五个组成部分:治理和监控、谦逊、合规、安全和业务规则。在本文中,我们将特别关注三个方面:治理和监控、谦逊和合规。
治理和监测
范围内 数据科学 和
机器学习,通过确保稳定性的工具和流程支持适当的治理和系统监控,根据角色和职责建立基于用户的权限,并创建审批工作流。我们将把治理和监控分开, 以展示它们如何为整体运营架构做出贡献。
让我们从监控开始。必须监控与生产模型相关的许多事情,包括但不限于精度跟踪、系统性能统计和数据漂移的常见问题。 数据漂移 当评分数据与用于训练模型的数据不同(统计显着差异)时,就会发生这种情况。起源通常是数据质量问题或特征组成的变化。在数据漂移的情况下,这是通过监控的许多潜在指标之一,我们的下一步将是重新训练模型。我们如何评估这种生产模式变化并确保它不会破坏整个系统和任何下游组件?
既然我们已经通过监控检测到生产模型问题,那么治理工作流程是什么样的?培训、测试、比较预期模型、分析下游影响和模型版本控制的过程必须打包且可重复。这一系列检查和批准应通过批准工作流进行管理,并使用基于用户的权限进行保护。不应跳过任何签核或验证;权限应该只授予那些需要它的人。但是,如果治理是关于大局的,我们如何在个人预测层面实时支持我们的模型操作?
谦逊
围绕人工智能设计系统的一个关键方面是认识到任何模型的预测都是概率性的。例如,在二元分类中,我们的模型以 0 到 1 之间的原始分数的形式进行预测。基于优化的阈值,模型预测 0 类或 1 类。但是,在某些情况下,模型对预测没有信心——例如,当非常接近优化阈值时,处于“低置信度”区域。在分析评分数据或预测时,还有其他情况,我们可能有理由怀疑模型预测的准确性。那么我们如何将其转化为实时保护,以确保我们的模型在个人预测层面做出安全准确的决策呢?
使用一组触发器,例如识别异常值或看不见的分类值,系统可以采取某些预定义的动作来防止不确定的预测。考虑一个预测图像是狗还是狼的模型。也许训练数据是由摄影师使用专业设备创作的。另一位摄影师使用质量低得多的设备拍摄了一张新的评分图像,导致图像模糊、小。这导致我们的模型具有接近阈值的预测;系统识别此触发器,而不是使用预测值,而是默认为“安全”值(例如,“狗”)并标记记录以供审查。
遵守
企业应该能够 为当前的生产模型生成可靠的文档。有不同的责任、背景和关注点的关键利益相关者,他们必须充分了解模型及其周围的基础设施。法律团队可能需要知道您从何处获取数据。卓越分析中心可能需要批准您选择的算法和超参数选择。风险部门可能想了解模型的当前版本与过去版本有何不同。最后,您的业务发起人可能想了解错误率如何转化为美元和美分。从开始到今天,这些不同角色中的每一个都需要持续访问有关您的生产模型的最新文档。
既然我们知道我们如何能够信任我们的模型的性能和围绕生产模型的操作,我们下次将重点关注对道德的信任,看看您的模型是否会产生意想不到的后果并维护您组织的价值观。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|