机器学习简史 - 经管之家

1232

收藏 2022-05-25

机器学习 (ML) 是实现利用人工智能技术实现目标的重要工具。由于其学习和决策能力，机器学习通常被称为人工智能，但实际上它是人工智能的一个细分。直到 1970 年代后期，它都是人工智能发展的一部分。然后，它分支出来自行进化。机器学习已成为云计算和电子商务非常重要的响应工具，并被用于各种尖端技术。

机器学习是当今许多组织现代商业和研究的必要方面。它使用算法和神经网络模型来帮助计算机系统逐步提高其性能。机器学习算法使用样本数据（也称为“训练数据”）自动构建数学模型来做出决策，而无需专门编程来做出这些决策。

机器学习部分是基于脑细胞相互作用的模型。该模型由 Donald Hebb 于 1949 年在一本名为行为组织（PDF）。这本书介绍了赫布关于神经元兴奋和神经元之间交流的理论。

赫布写道：“当一个细胞反复协助激发另一个细胞时，第一个细胞的轴突会产生突触旋钮（如果它们已经存在，则扩大它们）与第二个细胞的胞体接触。” 将 Hebb 的概念转化为人工神经网络和人工神经元，他的模型可以描述为一种改变人工神经元（也称为节点）之间关系和单个神经元变化的方法。如果两个神经元/节点同时激活，则两个神经元/节点之间的关系会加强，如果它们分别激活，则它们之间的关系会减弱。“权重”一词用于描述这些关系，而倾向于同时为正或都为负的节点/神经元被描述为具有很强的正权重。那些倾向于具有相反权重的节点会发展出强大的负权重（例如

机器学习跳棋游戏
IBM 的 Arthur Samuel 开发了一个计算机程序;电脑程序用于在 1950 年代玩跳棋。由于该程序只有非常少量的计算机内存可用，塞缪尔发起了所谓的α-β修剪. 他的设计包括使用棋子在棋盘上的位置的评分功能。计分功能试图衡量每一方获胜的机会。该程序使用极小极大策略选择下一步，该策略最终演变为极小极大算法.

Samuel 还设计了许多机制，使他的程序变得更好。在塞缪尔所谓的死记硬背中，他的程序记录/记住了它已经看到的所有位置，并将其与奖励函数的值结合起来。Arthur Samuel 在 1952 年首次提出“机器学习”一词。

感知器
1957 年，康奈尔航空实验室的弗兰克·罗森布拉特 (Frank Rosenblatt) 将唐纳德·赫布 (Donald Hebb) 的脑细胞相互作用模型与亚瑟·塞缪尔 (Arthur Samuel) 的机器学习成果相结合，创造了感知器。感知器最初被计划为一台机器，而不是一个程序。该软件最初是为 IBM 704 设计的，被安装在一台名为Mark 1 感知器，它是为图像识别而构建的。这使得软件和算法可转移并可用于其他机器。

Mark I 感知器被描述为第一台成功的神经计算机，但它出现了一些超出预期的问题。尽管感知器看起来很有前途，但它无法识别多种视觉模式（例如面部），从而导致神经网络研究受挫并停滞不前。投资者和资助机构的挫败感要过几年才会消退。神经网络/机器学习研究一直在苦苦挣扎，直到 1990 年代复苏。

最近邻算法
1967年，最近邻算法被构思出来，是基本模式识别的开端。该算法用于绘制路线图，是最早用于解决旅行推销员寻找最有效路线问题的算法之一。使用它，销售人员进入一个选定的城市，并反复让程序访问最近的城市，直到所有城市都被访问过。Marcello Pelillo 因发明“最近邻规则”而受到赞誉。反过来，他将著名的1967 年的封面和哈特论文（PDF）。

多层提供下一步
1960年代，多层的发现和使用开辟了神经网络研究的新路径。发现在感知器中提供和使用两个或更多层比使用一层的感知器提供的处理能力显着提高。其他版本的神经网络是在感知器打开了网络中的“层”之门之后创建的，并且神经网络的种类不断扩大。多层的使用导致前馈神经网络和反向传播.

1970 年代开发的反向传播允许网络调整其神经元/节点的隐藏层以适应新情况。它描述了“错误的反向传播”，在输出端处理错误，然后通过网络层向后分布以用于学习目的。反向传播现在被用于训练深度神经网络.

一个人工神经网络(ANN) 具有隐藏层，用于响应比早期感知器更复杂的任务。人工神经网络是用于机器学习的主要工具。神经网络使用输入和输出层，通常包括一个隐藏层（或多个层），旨在将输入转换为可供输出层使用的数据。隐藏层非常适合寻找人类程序员无法检测到的过于复杂的模式，这意味着人类无法找到该模式，然后教设备识别它。

机器学习和人工智能分道扬镳
在 1970 年代末和 1980 年代初，人工智能研究的重点是使用逻辑的、基于知识的方法，而不是算法。此外，计算机科学和人工智能研究人员放弃了神经网络研究。这导致了人工智能和机器学习之间的分裂。在那之前，机器学习一直被用作人工智能的训练程序。

包含大量研究人员和技术人员的机器学习行业被重组为一个独立的领域，奋斗了近十年. 行业目标从人工智能培训转向解决实际问题，提供服务。它的重点从人工智能研究继承的方法转移到概率论和统计学中使用的方法和策略。在此期间，ML 行业一直专注于神经网络，然后在 1990 年代蓬勃发展。这一成功大部分是互联网增长的结果，受益于不断增长的数字数据可用性以及通过互联网共享其服务的能力。

提升
“Boosting”是机器学习发展的必要发展。提升算法用于减少监督学习期间的偏差，并包括将弱学习者转换为强学习者的 ML 算法。Boosting 的概念最初是在 1990 年由 Robert Schapire 撰写的题为“弱可学习性的力量”的论文中提出的。Schapire 说，“一组弱学习器可以创建一个强学习器。” 弱学习者被定义为与真实分类仅略微相关的分类器（仍然优于随机猜测）。相比之下，强学习器很容易分类，并与真实分类很好地对齐。

大多数 boosting 算法都是由重复学习的弱分类器组成，然后将它们添加到最终的强分类器中。添加后，它们通常以评估弱学习器准确性的方式加权。然后数据权重被“重新加权”。错误分类的输入数据获得更高的权重，而正确分类的数据则失去权重。这种环境允许未来的弱学习者更广泛地关注先前被错误分类的弱学习者。

各种类型的 boosting 算法之间的基本区别是用于加权训练数据点的“技术”。AdaBoost是一种流行的机器学习算法，具有历史意义，是第一个能够与弱学习器一起工作的算法。最近的算法包括 BrownBoost、LPBoost、MadaBoost、TotalBoost、xgboost 和 LogitBoost。大量的提升算法在 AnyBoost 框架内工作。

语音识别
目前，大部分语音识别训练正在通过一种称为长短期记忆 (LSTM) 的深度学习技术完成，这是一种由 Jürgen Schmidhuber 和 Sepp Hochreiter 在 1997 年描述的神经网络模型。LSTM 可以学习需要记忆数千个离散步骤之前发生的事件的任务，这对于演讲来说非常重要。

大约在 2007 年，长短期记忆开始优于更传统的语音识别程序。据报道，2015 年，谷歌语音识别程序使用 CTC 训练的 LSTM 的性能显着提升了 49%。

面部识别成为现实
2006 年，人脸识别大挑战——美国国家标准与技术研究院项目——评估了当时流行的人脸识别算法。测试了 3D 人脸扫描、虹膜图像和高分辨率人脸图像。他们的发现表明，新算法比 2002 年的面部识别算法准确度高 10 倍，比 1995 年的准确度高 100 倍。其中一些算法在识别人脸方面的表现优于人类参与者，并且可以唯一地识别同卵双胞胎。

2012 年，Google 的 X Lab 开发了一种 ML 算法，可以自主浏览和查找包含猫的视频。2014 年，Facebook 开发了 DeepFace，一种能够以与人类相同的准确度识别或验证照片中个人的算法。

目前的机器学习
机器学习现在负责一些最重要的技术进步。它被用于新的产业自动驾驶车辆，以及探索银河系，因为它有助于识别系外行星. 最近，斯坦福大学将机器学习定义为“让计算机在没有明确编程的情况下采取行动的科学”。机器学习催生了一系列新的概念和技术，包括有监督和无监督学习、机器人的新算法、物联网、分析工具、聊天机器人等。下面列出的是七种常用方法商业世界目前正在使用机器学习：

分析销售数据：简化数据
实时移动个性化：提升体验
欺诈检测：检测模式变化
产品推荐：客户个性化
学习管理系统：决策程序
动态定价：根据需要或需求灵活定价
自然语言处理：与人类对话
机器学习模型在持续学习中变得非常适应，这使得它们运行的时间越长越准确。ML 算法与新的计算技术相结合，促进了可扩展性并提高了效率。结合业务分析，机器学习可以解决各种组织复杂性。现代 ML 模型可用于做出从疾病爆发到股票涨跌的预测。

谷歌目前正在尝试使用一种称为机器学习的方法指令微调. 目标是训练 ML 模型以通用方式解决自然语言处理问题。该过程训练模型解决广泛的问题，而不仅仅是一种问题。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

大厂数据分析面试指南！来自亚马逊、谷歌、微软、头条、美团的面试问题！

机器学习模型方法总结

历史最全机器学习/深度学习/人工智能专业术语表中英对照表

机器学习如何应用于商业场景？三个真实的商业项目

数据工作者的自我修养 | 哪些技能是必不可少的？

《汗牛充栋：数据分析书籍分享》CDA网校新课上线

文本挖掘常用的107个语料库

一图读懂“东数西算”工程

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群