全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1136 0
2022-05-26
人工智能和机器学习技术正在改变组织收集、处理和保护数据的方式。它们被用来以以下形式收集大量有关互联网用户的信息大数据,并保护和保护它。挑战在于如何最大限度地利用大数据,同时保护信息和个人隐私。欧洲通用数据保护条例 (GDPR),它专注于隐私,有几个特点需要额外保护欧洲人的隐私。(预计美国将在几年内跟进。)GDPR 的引入产生了更复杂的需求机器学习系统。苏格兰格拉斯哥的斯特拉斯克莱德大学法学教授 Lilian Edwards 表示:

“大数据完全反对数据保护的基础。我认为人们一直在说我们可以使两者调和,因为这非常困难。”


个人数据的收集始于有效的数据智能系统可以选择所需的数据,确定它属于谁,并决定如何使用它。分类、相关性、数据发现、身份和隐私特定要求(例如同意检查),每个都使用不同的技术、不同的训练模型和不同的推理。尽管存在差异,但这些元素必须组织成一个有凝聚力的模型,并且根据GDPR,必须包括维护数据隐私的能力。

现代收集系统必须能够在收集和处理数据时发现、分类、关联、跟踪和编目数据。这些任务最初可能难以协调,随着手机和物联网应用程序的多样性增加,这些任务变得更加困难。在数据中发现可信赖的模式需要高度的准确性,并涉及消除误报和不必要的噪音。这可以通过机器学习来完成。

机器学习 (ML) 使用旨在逐步改进自身的算法。他们通过处理数据来做到这一点,这是一种培训形式。训练越多,算法在寻找模式方面的表现就越好。使用语音模式进行训练有助于机器人听起来更人性化并识别所说的内容。使用视觉模式进行训练可以帮助自动驾驶汽车识别道路上的物品。客户行为模式可以训练系统关联购买模式。这不同于人工智能(人工智能)。

AI vs. 机器学习 vs. 深度学习
机器学习和人工智能是两个流行的流行语,经常互换使用。然而,这两个概念不是一回事,两者之间的混淆会导致沟通中断。在讨论分析或大数据时,经常使用这两个术语。人工智能(AI)作为一个概念首先出现,重点是模仿人类智能。机器学习 (ML) 紧随其后,作为实现人工智能的一种方法。

在 1990 年代,随着 AI 开始使用神经网络作为其基础,机器学习倡导者将他们的注意力转移到更基本的、重复的行为上,并开始创建旨在分析大量数据并从过程中学习的 ML 程序。机器学习,没有模仿人类智能的目标,被用于处理互联网购买、收集信息、“个性化”互联网体验、推荐类似产品和分析销售数据。机器学习不再是人工智能的一种形式,而是一个“有限”响应行为模式的系统,通过经验学习和发展,大大减少了对手动编程的需求。

深度学习是使用神经网络的人工智能“现代”训练过程。深度学习模型试图模仿生物神经系统(尤其是人脑)中使用的处理和通信模式。大多数现代深度学习模型都是为人工神经网络.

安全——好消息和坏消息
人工智能系统的设计目的是通过智取网络威胁来对抗网络威胁。许多研究人员正在添加一个称为“攻击、检测和保护,”来保护他们的人工智能系统和应用程序。这包括使用面部识别、汽车、医疗数据和其他识别人员的方法。他们还能够对潜在的黑客进行建模,模拟攻击并在攻击之前制定对策。

不幸的是,黑客同样勤奋,并且有多种攻击方法和方式来利用人工智能来发挥自己的优势。“规避攻击”就是一个例子。在这种情况下,系统充斥着误报(基本上是伪装成良性代码的恶意软件),这导致安全分析师忽略警报。

“中毒攻击”提供了另一个例子,注入旨在毒化 AI 训练数据的虚假数据,并在某些分类中产生偏差。这种攻击可以显着改变人工智能模型,影响其决策和结果。不幸的是,黑客可以使用他们自己的人工智能,并通过互联网爬行,搜索漏洞。

GDPR
对于许多互联网企业来说,目标是使用关系来分析传入数据,而不仅仅是相似性。ML 和 AI 可以提供实现这一目标的方法,同时支持隐私和数据保护。根据 GDPR,包含个人数据的机器学习系统必须能够定位信息、更改信息并限制对信息的处理。GDPR 第 5(1)(a) 条规定,个人的个人数据必须“以与数据主体相关的公平、合法和透明的方式处理”。

此外,还有各种各样的手机和物联网应用程序需要处理。从技术上讲,所有这些都可能很困难。系统包含的连接越多,安全威胁的可能性就越大。这意味着对安全性的要求正变得越来越复杂,并且可能会扩展到尚未包含在数据安全程序中的设备。

GDPR 要求公然透明并最大限度地减少可以收集的数据的数量和种类,从而使过程复杂化。GDPR 规定:

当一个组织收集个人数据时,它必须说明收集的数据将用于什么。数据不能用于任何其他目的,包括与第三方共享。
只收集项目或过程所需的最少量数据。数据只能保留有限的时间。
一个组织必须告诉人们它拥有哪些关于他们的数据以及正在使用这些数据做什么。
如果要求,组织必须更改或删除个人的个人数据。
当个人数据被用于关于人员的自动决策时,组织必须能够解释决策过程背后的逻辑。
一个组织如何合法地证明收集和存储可用于推断个人的性偏好以及政治和宗教信仰的数据是合理的?有些不道德的人会利用这些信息获取金钱利益,或操纵人们的行为。

GDPR 的目的是保护欧洲公民的隐私和权利。这些努力使欧洲人免于被操纵进行不必要的购买或成为有关政治候选人和问题的虚假信息的目标。Lilian Edwards 评论大数据研究面临的问题:

“大数据挑战目的限制、数据最小化和数据保留。大多数人永远不会用大数据摆脱它。它挑战了透明度和同意的概念,因为你不能在不知道你同意的目的的情况下合法地同意。算法透明意味着你可以看到决策是如何达成的——但你不能,使用机器学习系统,因为它不是基于规则的软件。”

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群