在隐私被提上日程的一周内,我们询问如何保护 AI 模型。这已经是一个成熟的领域,但仍然没有被大多数开发人员关注。最近,ENISA 发布了一份名为保护机器学习应用程序的报告(下面的链接),其中很好地总结了所涉及的主要威胁
我们首先解释威胁,然后列出映射到威胁的漏洞
逃避
一种攻击类型,攻击者在 ML 算法的输入上工作以找到导致其输出大量修改的小扰动(例如决策错误)。就好像攻击者为算法创造了一种错觉。这种修改后的输入通常被称为对抗样本。
甲骨文
一种攻击类型,攻击者通过提供一系列精心设计的输入和观察输出来探索模型。这些攻击可能是更有害类型的先前步骤,例如逃避或中毒。示例:攻击者研究一组输入-输出对并使用结果来检索训练数据。
中毒
一种攻击类型,其中攻击者更改数据或模型以修改 ML 算法在选定方向上的行为(例如,破坏其结果,插入后门)。就好像攻击者根据其动机调整算法一样。示例:向图像识别算法大量指示狗的图像确实是猫,以使其以这种方式解释它。
标签修改
攻击者破坏训练数据标签的攻击。
模型或数据披露
这种威胁是指模型的全部或部分信息泄露的可能性。示例:ML 算法的输出非常冗长,以至于它们提供了有关其配置(或敏感数据泄漏)的信息
数据披露
这种威胁是指由 ML 算法操纵的数据泄露。这种数据泄漏可以通过不适当的访问控制、项目团队的处理错误来解释,或者仅仅是因为有时拥有模型的实体和拥有数据的实体是不同的。
模型披露
这种威胁是指 ML 模型内部(即参数值)的泄漏。这种模型泄漏可能是由于人为错误或与安全级别太低的第三方的收缩而发生的。
ML 应用程序组件的妥协
这种威胁是指对 ML 应用程序的组件或开发工具的破坏。
示例:开发人员用于实现 ML 算法的开源库之一的妥协
机器学习应用程序失败或故障
这种威胁是指 ML 应用程序故障(例如,由于输入错误导致的拒绝服务,由于处理错误导致的不可用)。例如,第三方托管的 ML 应用程序的支持基础设施的服务水平与业务需求相比太低,应用程序经常不可用。
人为错误
模型的不同利益相关者可能会犯错误,从而导致 ML 应用程序失败或故障。例如,由于缺乏文档,他们可能会在最初没有预见到的用例中使用该应用程序。
了解了威胁的概念后,现在让我们看看映射到上述威胁的漏洞
可解释的模型是否天生就不安全?
逃避
缺乏对异常输入的检测
模型设计实现中规避攻击考虑不周
模型设计实现中规避攻击考虑不周
缺乏基于对抗性攻击的训练
使用广为人知的模型,允许攻击者对其进行研究
输入完全由攻击者控制,允许输入输出对
使用在白盒或灰盒条件下制作的对抗样本(例如 FGSM ……)
模型上可用的信息太多
输出中给出的模型信息过多
甲骨文
该模型允许检索私人信息
输出中给出的模型信息过多
模型上可用的信息太多
缺乏对 ML 应用程序可能遭受的攻击的考虑
缺乏保持机器学习应用程序组件良好安全级别的安全流程
ML 模型组件的弱访问保护机制
中毒
缺乏提高对中毒的鲁棒性的数据
访问权限管理不善
数据管理不善
未定义的正常运行指标,进行复杂的妥协识别
缺乏对 ML 应用程序可能遭受的攻击的考虑
使用不受控制的数据
使用不安全的数据或模型(例如使用迁移学习)
对中毒缺乏控制
训练数据集中没有检测到中毒样本
ML 模型组件的弱访问保护机制
使用不可靠的来源来标记数据
模型或数据披露
存在不明披露情景
ML 模型组件的弱访问保护机制
缺乏保持机器学习应用程序组件良好安全级别的安全流程
测试环境中未受保护的敏感数据
数据披露 输出中给出的模型信息过多
该模型可以允许检索私人信息
机器学习算法训练敏感数据泄露
模型上可用的信息太多
输出中给出的模型信息过多
ML 应用程序组件的妥协
模型上可用的信息太多
存在多个漏洞,因为 ML 应用程序未包含在将安全性集成到项目的过程中
使用易受攻击的组件(在整个供应链中)
输出中给出的模型信息过多
存在未识别的妥协方案
未定义的正常运行指标,进行复杂的妥协识别
由于缺乏网络安全意识而导致的不良做法
缺乏保持机器学习应用程序组件良好安全级别的安全流程
ML 模型组件的弱访问保护机制
存在多个漏洞,因为 ML 特性未集成到现有策略中
存在多个漏洞,因为 ML 应用程序不符合安全策略
与低安全性第三方签订合同
机器学习应用程序失败或故障
ML 应用程序未集成到网络弹性战略中
存在未识别的故障场景
未定义的正常功能指标,进行复杂的故障识别
决策缺乏可解释性和可追溯性
缺乏保持机器学习应用程序组件良好安全级别的安全流程
存在多个漏洞,因为 ML 特性未集成到现有策略中
与低安全性第三方签订合同
申请不符合适用法规
人为错误
访问权限管理不善
缺乏关于机器学习应用程序的文档
由于数据不一致或海绵示例导致的拒绝服务
使用不受控制的数据
未向事件响应团队报告网络安全事件
缺乏网络安全意识
但所有这一切都为我提出了一个奇怪的问题:可解释的模型是否天生就不那么安全?即对模型的内部运作/数据了解得越多,就越容易被欺骗?
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选