大多数公司选择外包他们的机器学习解决方案。这是有道理的,因为人工智能开发需要独特且难以获得的专业知识和经验。这就是为什么最好与专门从事此类开发的团队合作。
但是,如果您想制作自定义机器学习模型,则需要向外包团队提供您的数据。这就是问题开始的地方。您如何在不危及客户安全和隐私的情况下将敏感数据传递给外部各方?
在Serokell,我们经常遇到担心他们的数据将如何被使用的客户。我与数据科学部门负责人 Ivan Markov 进行了交谈,以准备本指南以回答最常见的问题,并帮助您在与外部团队合作时感到受到保护。
与客户合作时的三种常见数据相关场景首先,让我们谈谈机器学习是如何工作的。在 ML 中,我们使用在数据上运行并从中学习的算法。很容易理解,数据在 ML 中是必不可少的——没有它,您将无法获得想要的结果。
与客户合作时,ML 团队经常不得不面对以下三种不愉快的情况之一:
第一种情况是最常见的,也是最复杂的。正如人们所说,数据是新的黄金。您不能只在 Internet 上找到为特定业务量身定制的定制模型所需的东西。不幸的是,当我们面临这样的情况时,我们不得不拒绝这个项目。
开源场景稍微好一些。数据已经存在,任何人都可以使用它。但是,假设您决定用谷歌搜索随机人物的照片。如果您只是为了好玩而训练模型并且不会告诉任何人,那么任何 AI 伦理学家都会对您说这在道德上是错误的。但当局很难知道你正在这样做。但是如果你想创建一个商业人脸识别系统呢?这些人没有同意你在他们的照片上训练你的人脸识别模型,你和你的公司可能会遇到严重的麻烦。甚至 Facebook 也不得不面对法律后果,并删除了其被抓取的Instagram 照片数据库。
因此,当您获取开源数据时,了解保护它的许可证类型总是很重要的。这取决于许可证,但通常将开源用于商业目的是非法的。当然,如果您的代码未开源,则必须有人证明您非法使用了这些数据。抓住你可没那么容易。但是,这将永远玷污您的声誉。我们不建议这样做。
最后,还有第三种选择。客户来找你,他们有数据。但是他们要求您在不传输这些数据的情况下构建模型。正如你可以猜到的那样,这非常困难,而且没有多少数据科学家能够或愿意这样做。这种方法可能有多种原因。客户有敏感数据,试图保护客户的隐私,或者有什么要隐藏的。我们不知道。问题在于,在不查看数据的情况下,很难建立一个给出可重复结果的模型。您必须确保用于训练模型的数据相似或相同。否则,它将无法正常工作。
这些可怕的情况有什么替代方案?有几件事可以帮助您成功处理这些场景中的每一个。
了解什么是个人数据 双方的通识教育通常会有所帮助。开发人员应该对他们将如何处理数据保持透明。客户需要知道如何在出现问题时保护自己。通常,您需要一份精心制作的合同和一份保密协议。在这种情况下,双方都明白,如果客户的私人信息进入互联网,就会产生诉讼。在合同中,有必要准确报告这些个人数据的位置。很多时候,在这个阶段,双方发现根本不需要私人数据!ML 团队不需要客户的姓名、性别或年龄——所有这些都可以从匿名形式的交易中提取!
学习如何做好匿名化匿名化如何运作?让我们以零售为例。有必要匿名化会员卡或信用卡的号码。一个很好的解决方案是加密哈希函数,它以数字/字母字符串的形式表示卡号,只有客户知道将它们翻译回来的密钥。这些数字不能与真人相关联。
在某些情况下,模型需要实际的个人数据,例如在医学领域。可以通过 MRI 恢复性别,但随着年龄的增长,这是一项更复杂的任务。对于诊断,您通常需要它。有一条出路:把人分成不同的年龄组。18-24、25-36,每个患者的年龄都属于其中一个等级。您甚至不需要以开放的方式标记这些组;称它们为 a、b 和 c。这足以让模型将年龄信息考虑在内。但是您仍然需要患者的正式同意(通常,患者在登记时签署此表格)。
学会使用远程服务器访问许多公司依赖于远程服务器访问。在这种情况下,他们通过 SSH 提供访问权限,开发人员只能在那里执行命令,无法访问 Internet。对于团队来说,这非常不方便。您看不到屏幕,但对于 ML 工程师来说,查看数据对于开发和可视化的速度至关重要。但你可能会找到同意这一点的人。问题是正确设置远程桌面协议非常棘手。您需要确保沟通只进行一种方式,并且您需要知道您正在做什么来微调所有内容。同时,如果您进行了匿名化,通常不需要这样做。
结论那么,总结一下,外包私人数据时的主要错误是什么?
- 匿名化做得不好。有必要仔细检查所有字段是否与输入相对应。
- 搞砸了远程访问。交通管制要么昂贵,要么复杂,但如果您不确定自己能不能做对,就不要去做。
- 过度匿名化。在这种情况下,您无法从数据中学到任何东西。
- 合同起草得很差。写下什么是披露,哪些数据是不允许的,营业额是多少。请咨询专家,他们将为您提供正确的建议。
- 如果您非法使用数据,则您不能提供此类数据。如果有人告诉你,那对你和你的企业来说就是这样。根据法律,在医学领域,你甚至不能把它交给受托人,即使它不是开源的。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|