第一次提到人工智能是在 1950 年艾伦·图灵 (Alan Turing) 写的一篇论文中,题为计算机与智能,在那里他问了一个问题,“机器能思考吗?” 图灵的文章,以及 1977 年的一篇题为人工智能史推荐阅读 P. McCorduck 撰写的文章,供那些想要更深入了解该领域的起源和历史的人阅读。McCorduck 阐述了该领域是如何演变的、最初的看法以及其背后的思维过程,Pragyanmita Nayak 说,高级数据科学家日立万塔拉联邦,在她的 DATAVERSITY® 期间企业分析在线会议演讲题为人工智能、机器学习和深度学习。她的演讲侧重于人工智能 (AI) 及其与机器人技术、机器学习和深度学习的关系之间的异同。她说,总的来说,人工智能 (AI)、机器学习和深度学习之间的关系具有她所谓的“是一种”的关系。深度学习是机器学习算法的一种,机器学习是
人工智能的一种。
机器会思考吗?加速炒作的因素
Nayak 说,人工智能已经变得相当流行,并且有几个因素增加了炒作。虽然人工智能算法已经存在了一段时间,随着我们学习使用人工智能的新方法,新的学习算法和理论已经出现。更好地理解当前数据雪崩的愿望也是一个因素,她通过要求参与者记住有一次整个项目的“数据”可以放在软盘上来说明我们在最近的记忆中已经走了多远磁盘。
移动设备正在生成和消耗大量的非结构化数据,并且涉及驱动物联网的传感器的应用程序的激增也呈指数级增长。她说,每天都会产生如此多的数据,“我们希望我们可以访问这些数据。” 纳亚克说,根据统计研究,46% 的公司正在以某种形式使用人工智能,32% 的公司尚未采用,但计划在未来采用。只有 22% 的人没有使用过人工智能,也没有计划这样做。
人工智能、深度学习和
机器学习就在我们身边
这些技术的有效性是其扩大采用的关键因素。这美国生殖医学学会最近发表的研究结果表明,当一台配备人工智能的计算机获得数百个胚胎的图像时,它可以以 85% 的准确率预测哪个会导致活产。
语音识别技术现在正处于人类语音与虚拟助手之间的界限正在消失的地步:
“谷歌年度会议最精彩的部分是 [Google Duplex] 虚拟助理打电话预约理发,而电话另一端的人不知道他们正在与虚拟助手。”
Nayak 分享了另一个例子
深度学习技术使用户能够记录消息,然后由机器分析和复制。机器使用复制的声音呼叫无法区分家庭成员声音和机器人声音的家庭成员。“当你自己的母亲无法识别你自己的声音时,你可以想象这些技术变得多么先进。”
人工智能的基石
人工智能的基础建立在三个概念之上:自动机、上下文无关语法和模仿游戏——后者由艾伦·图灵发明,并在《计算机与智能》中进行了讨论。在 1950 年代,出现了“自动机”或“自动执行”的概念,用于描述能够根据某些规则自行执行的机器。模仿游戏从隔板两边的两个人开始。隔板的一侧有一个人被指定为听者。另一边,有一个人和一个机器人。人和机器人说话的时间不同,如果听者无法区分人声和非人声,可以说机器人通过了“图灵测试”。
编程“智能”需要知识储备、从经验中学习的能力,以及在没有任何人工干预的情况下随着时间的推移而改进。从这些基本概念中出现的其他领域超出了她的演讲范围,例如机器智能、增强智能和认知智能,她鼓励参与者进一步探索这些领域。
人工智能通论
一般理论是,一个人工智能她说,它具有类似人类的智能,但它是机器智能。属性包括某种类型的短期和长期记忆机制、处理传感器系统的能力、一些运动技能协调,在某些情况下,机器可能具有动机、思考和/或意识。Nayak 说,人工智能解决方案不一定具有所有这些特征,但它可以具有一个或多个组合。
机器人与人工智能
尽管通常被认为是可互换的,但人工智能和机器人技术之间存在差异。最显着的区别是机器人通常重复执行特定任务。她说,这项任务可能涉及在环境中读取读数,或与附近物体进行交互,但根据定义,机器人是一种旨在执行重复任务的机器。
当机器人收集信息时,它需要以某种形式响应该信息。响应可能涉及使用传感器,允许机器人提供自主响应,或者响应可以完全由人工控制。响应可能取决于某些规则或重复事项中某些任务的执行。
Nayak 展示了一张装水机的照片,他说装瓶水是特定机器人可以完成的唯一任务——没有学习或解决问题的过程:
“它不会弄清楚:'好吧。我得到了这些水瓶,但我需要学习并围绕它做点什么。这不是这个特定机器人系统的特征之一。”
现在很常见的聊天机器人可以使用预定义的响应来响应特定的单词,但它们仅限于这些响应,并且不能冒险超出这些参数。这个过程不涉及学习——机器人只是对触发词产生特定的反应。
机器学习
机器学习和数据挖掘经常混为一谈,但数据挖掘通常仅用于模式识别和模型制定,机器学习更为复杂。人工智能和机器学习在出版物中也经常互换使用,但这两个概念之间存在差异。机器学习Nayak 说,从人工智能中的模式识别和计算学习理论研究演变而来,与计算统计学密切相关,计算统计学也专注于通过使用计算机进行预测。
机器学习研究领域是人工智能的一个子集,它使计算机能够在没有明确编程的情况下进行学习。根据它正在处理的数据以及它如何与某些场景交互,机器从其环境中获取特征和信息,并以某种形式存储它们。在交互过程中,机器不断学习并尝试优化其响应。
当它接收到它所提供的响应不正确的反馈时,它会存储该信息并在下次遇到相同情况时使用它来通知不同的响应。Nayak 表示,数据量越大性能越好,因为机器可用的数据越多,“它就必须有越多的例子来找出趋势和模式,并能够围绕这些模式和趋势制定模型。”
数据集
机器学习始于训练、验证、测试和交叉验证的过程。为了说明这一点,Nayak 将 100 条记录的假设数据集拆分为 30、30 和 40 条记录的三个子集。一组 30 个(训练集),分配给机器学习算法,因此它可以制定一个学习模型。第二组 30 个(验证集)用作调整模型参数以提高预测准确性的一种方式。第三组 40 条记录(测试集)提供有关模型如何处理新测试数据的附加信息。然后可以结合使用这三个子集来交叉验证并进一步了解模型的工作原理。
计算学习理论
机器学习的基础是归纳学习假设,Nayak 在该假设中解释说,“可以预期在一组足够大的训练数据上成功运行的模型可以在其他测试数据上运行。” 她强调,机器学习最适合从通用到特定的顺序,而且模型不应该被设计为处理所有可能的场景。如果模型过于具体,则在面对数据的细微变化时将无法执行。她说,如果模型过于笼统,将导致预测准确性低。
学习算法的类型
监督学习:标记数据探索,其中存在标记值。“你正在根据 x 制定你的 y 模型。”
无监督学习:未标记的
数据分析,例如聚类、异常检测和潜在变量分析。“你根据数据本身制定模型,而不是针对特定事物。”
强化学习:来自环境的奖励/惩罚反馈,例如基于代理的建模。根据其行为,机器会收到奖励或惩罚。“如果它得到奖励,它会继续这种行为,但如果它受到惩罚,它就会知道它必须自我纠正,并为此采取必要的行动。” Roomba 使用强化学习——根据在房间里遇到的障碍物获得关于下一步去哪里的反馈。
机器学习解决方案的十个步骤
定义问题陈述——收集可用数据
识别目标变量和预测准确性的度量
衡量数据或从现成的数据集中进行选择——当人口普查数据等外部数据可以提供背景信息时
清理和连接数据集
选择最有助于分析定义的问题陈述的算法
训练和验证模型
测试模型
部署模型以供使用
确定执行频率
识别模型更新频率——设置模型应该更新或再次执行的时间间隔
深度学习
深度学习是机器学习的一个子集,适用于非结构化数据——不是表格形式的数据。例如语音到文本的转换、语音识别、图像分类、对象识别和情感数据分析。深度学习能够通过使用概念层次来捕获复杂的模型,从简单的理解开始,逐步构建,直到出现图片。
的基础深度学习在代数、概率论和机器学习领域。使用深度学习的一种方法是使用图像识别。Nayak 使用汽车图像说明了图像的每个视图如何创建一个层,并且随着层数的增加,模型变得更接近于理解图像,并且它所属的类别变得更加清晰。“如果你早点停下来,当然,你不知道它实际上是一辆汽车的图像,但如果你深入到更多层次,那就是你得到更好理解的时候。”
两种最常见的深度学习网络类型是卷积网络和循环网络。卷积网络主要用于对象或图像识别、具有类似网格拓扑的数据或由像素组成的图像。循环网络用于顺序数据、循环计算或自然语言数据。深度学习需要大量数据存储,因此是基于云的。