机器学习这个术语可以追溯到 1959 年的一篇文章亚瑟·塞缪尔他在其中提出:“对计算机进行编程以从经验中学习应该最终消除对大部分详细编程工作的需求。” 希望数据可以单独用于开发模型,而不是依赖固定的规则或理论。
Aurélien Géron 在 2017 年强调了这一点,称“机器学习是计算机编程的科学(和艺术),因此他们可以从数据中学习。” 这两种定义都将机器学习定义为一门数据驱动的学科,训练计算机通过观察和经验学习,而不是严格的预编程。 机器学习的对数据的依赖揭示了其最紧迫的挑战之一:敏感数据、不准确的数据、有偏见的数据、嘈杂的数据和不相关的数据会导致糟糕和有风险的结果。
Joseph Regensburger 博士,研究副总裁伊穆塔自动化数据治理公司 DATAVERSITY® 最近谈到了试图接受这些技术的组织所面临的困难和挑战。他最初是通过在实验粒子物理学方面的工作来到数据科学领域的。由于他们提供的解决方案,他加入了 Immuta。在采访中,他说:
“该行业正朝着生产机器学习的方向发展,组织将不得不解决一些稍有改变的领域:围绕隐私,围绕相关性是否可以普遍化,以及围绕公平。我看到人们正在努力应对这些挑战。”
机器学习的基本类型
有四种基本的 ML 算法:强化、无监督、半监督和监督。
强化学习专注于严格控制的学习参数,使用机器学习算法接收动作、约束和最终值的描述。明确定义规则后,机器学习算法将使用试错法探索不同的选项。该算法从以前的经验中学习并调整其方法以达到最佳结果。
在无监督学习,该算法搜索数据以查找和识别模式。没有人工操作员提供指令。该算法在分析可用数据时建立相关性和关系。然后,该算法将数据组织成一个结构。随着评估的数据越来越多,算法根据数据做出决策的能力逐渐提高。无监督学习允许处理对结果没有明确答案的问题。
半监督学习使用标记和未标记的数据。带标签的数据是指使用有意义的标签的信息,因此算法可以理解数据。未标记的数据没有那些有意义的标签. 通过这种组合,ML 算法学习如何标记或识别未标记的数据。
和监督学习, 该算法是通过例子来教授的。监督学习使用正确输出应该如何看待的标准化目标。该算法接收包含所需输入和输出的已知数据集。然后命令算法找到通向这些输入和输出的路径。尽管操作员有正确的答案,但算法学会了识别数据中的模式。该算法进行预测并由操作员进行校正,并且该过程一直持续到算法达到高水平的准确性/性能。
优化算法需要考虑多种因素,包括:数据大小、目标和质量。这种优化即使对于最有经验的数据科学家,雷根斯堡说。通常很难预测算法将如何执行,需要仔细的实验和分析。尝试了很多不同的方法,同时保持用于比较和评估性能的“测试基础”,可能非常有用。
雷根斯堡表示:
“机器学习正在全力推进,但管理数据的方法阻碍了它,使算法驱动型企业的承诺落空。到现在。现在,您无需实际移动或复制数据即可让您的数据被发现。数据科学家可以直接连接任何工具,治理专业人员可以编写动态应用于数据的基于条件的策略。结果?更少的监管负担落在了数据科学家身上。他们对数据的访问被简化了。这意味着更好、更准确的模型可以更快地部署,具有更高的耐用性、更低的业务风险和更强大的洞察力。”
算法和公平
算法是旨在完成任务或目标的一系列特定步骤。食物食谱是人类算法的一个很好的例子。与计算机算法一样,一个好的配方描述了实现目标所需的具体步骤。计算机读取算法,然后准确地执行它,提供称为输出的结果。
计算机算法通常用作函数。这些函数充当由较大程序引用的较小程序。例如,一个图像查看应用程序将有一个函数库,每个函数都使用特定的算法来显示不同的图像格式。拼写检查和搜索引擎也使用算法。作为一般规则,计算机执行的大多数任务都使用算法。在讨论算法时,雷根斯堡讲述了一个大型互联网零售商的故事:
“他们有一个原型系统,他们正在努力在他们的人力资源系统中识别优秀的候选人。他们发现他们的推荐系统对女性有偏见。因此,女子大学、传统上的女子运动或课外活动实际上在她们的系统中被低估了,她们很难消除这种根深蒂固的偏见。所以这是挑战之一。”
然后他提到了这本书数学破坏武器,这触及了很多关于如何识别算法中的公平性的问题。很难去掉来自过程的偏见,“所以,我认为人们被这首警笛声所诱惑,算法将解决我们所有的偏见问题,但事实并非如此,”他评论道。他确实相信与数据科学,随着它的发展,将帮助人们意识到消除偏见的潜力:
“还有其他整个算法公平领域,并且能够确保您正在使用和开发的算法做出更公平的决策,减少或评估隐性偏见,或来自这个非常大的偏见历史记录。”
数据治理步骤
在过去的几十年里,数字数据一直在经历一个狂野的西部阶段。那正在改变。出于保护主义/国家安全原因,俄罗斯和中国正在为全球在线通信和商业设置障碍。另一方面,欧洲最近颁布了一般数据保护条例(GDPR) 保护其公民的隐私。有几十个国家也在制定自己的法律。
数据治理在此类法规和更好地控制企业的所有数据资产方面变得非常重要。在美国,许多州正在颁布法律,特别是在加利福尼亚州,2020 年 1 月有 CCPA,而且还会有更多。关于数据治理问题,Regensburger 表示:
“你有数据管理者,他们的职责是确保数据被正确使用,政策在整个组织中得到一致执行,人们遵守所有相关法规和最佳实践。在旧系统中,这些数据管理者必须做的基本上是确保对组织内的每个潜在数据孤岛执行策略。”
这种做法现在已经成为一个巨大的问题,他说。现在有人说,“我有一百个不同的数据孤岛,我如何确保在所有这些孤岛中执行一致?” 一个组织必须对所有这些不同的系统进行集中访问和控制;机器学习、算法以及集成和自动化的数据治理平台可以实现这一点。
Immuta 做什么
Immuta 自动化数据治理平台在安全、法律、合规和业务团队之间建立信任,因此他们可以协同工作,确保以最小的风险及时访问关键业务数据。其自动化、可扩展、无代码的方法使整个组织的用户可以轻松地按需访问他们需要的数据,同时保护隐私并对所有数据执行监管政策。Regensburger 在描述 Immuta 时说:
“任何分析驱动型企业中的一个大问题是获取数据。它变成了一场真正的噩梦。您必须通过分层的授权才能获得它。但 Immuta 简化了这一切。”
同时,他们已经解决了如何实现数据治理自动化的一些真正挑战,使数据科学能够以简化和负责任的方式从概念验证到生产。组织必须应对许多围绕隐私的道德和监管挑战,才能以更稳健的方式实践数据科学。他指出,Immuta 正在帮助解决这个问题:
“现在,我已经管理我们的研究团队大约一年了。主要着眼于为平台开发新的隐私增强技术。有很多工具可以帮助您找到模式,也有很多工具可以让您存储数据。但它不一定能给你提供洞察力或帮助增强隐私和利用数据。”
Immuta 拥有处理隐私和风险以及有效治理的必要组件,该平台可帮助数据科学家和分析师以统一和协调的方式可靠地完成工作。