深度学习中的“深度”是指设计中涉及的隐藏层数。深度学习是一种训练人工智能 (AI) 以识别特定数据(例如语音或面部)并根据以前的经验进行预测的方法。不像机器学习通过预定义算法组织和发送数据,
深度学习开发并使用基本算法来筛选数据,然后通过利用模式和“许多”层处理来训练 AI 实体“自学”。
深度学习是第一次“范式转变”的结果人工智能冬天”(大约从 1970 年到 1980 年)。就人工智能的思考而言,冬天提供了一个休息和重新开始。在第一个 AI 寒冬之后,机器学习作为训练人工智能的一种方法,被深度学习所取代。
机器学习分离并成为一种单独的实践。
深度学习的首次使用始于 1979 年,当时 Kunihiko Fukushima 设计了“卷积神经网络”。他使用将多个池与卷积层相结合的系统开发了一个
神经网络,称为新认知. 他的新颖设计使计算机能够“学习”并发展识别视觉模式的能力。Fukushima 的模型使用强化策略进行训练,在多层反复激活,随着模式的重复和强化,随着时间的推移,强度(重量)增加。
节点/神经元
这人工神经网络使用连接并描述为人工神经元的节点集合。“连接”充当突触,并在人工神经元向另一个神经元发送信号时发挥作用。这人工神经元接收信号对其进行处理,然后向与其连接的其他人工神经元发出信号。在此过程中,神经元使用激活函数来“标准化”来自神经元的数据(输出)。
神经元之间的连接(或突触)故意与权重相关联。这个权重控制输入的重要性和价值。权重最初是随机设置的,并随着经验而变化。
图层
深度学习使用数千个人工互连的神经元,这些神经元分布在“多个处理层”中。(机器学习系统通常使用两层。)这些多个处理层提供更高级别的抽象、更好的分类和更精确的预测。深度学习为处理语音识别、会话技能和大数据提供了出色的工具。
每一层节点/神经元都使用来自前一层输出的特征进行训练。随着数据通过神经网络前进,可以识别更复杂的特征,因为它们聚合和重组前一层的特征。目前,神经网络具有三种类型的层:
输入层接收数据
隐藏层处理来自输入的数据
输出层提供响应和预测
神经网络能够学习非线性方式,与早期的机器学习系统相比具有显着优势。这为神经网络提供了定位图像中细微、可能“令人困惑”的特征的能力(例如树上的橙子,一些在阳光下,而另一些在阴凉处)。这种“技能”是使用激活层的结果,该层旨在在识别过程中夸大“有用”的细节。
人工神经网络
人工神经网络是松散地基于人脑中神经网络设计的计算机系统。虽然还没有有机的、活的大脑那么有效,但这些人工网络以类似的方式运作。系统通过经验学习,类似于活体大脑的方式。他们通过比较样本来学习完成任务,通常没有明确指定的目标。
一个例子是图像识别,神经网络训练通过查看带有“狗”或“没有狗”标签的图像来识别狗的图像,并使用结果来识别狗。人工神经网络从零开始,没有数据或了解狗的特征。每个系统都会对其正在寻找的相关特征形成基本的理解。
目前,有六种不同类型的神经网络. 然而,只有两个获得了相当大的普及:循环和前馈。前馈神经网络s 向单个方向发送数据,通常被认为是最简单的一种神经网络。数据从输入节点通过隐藏节点发送到输出节点。前馈神经网络不使用循环或循环。
递归神经网络另一方面,使用节点(突触)之间的连接,并允许数据“来回”流动。循环神经网络创建一个定向循环,它被表示为“动态时间行为”。基本上,这意味着循环神经网络通过一个简单的循环记住他们从以前的输入中学到的东西。循环从前一个时间戳中获取数据,然后将其添加到当前时间戳的输入中。循环神经网络能够使用其内部存储器来处理输入序列。这种形式的神经网络在比较笔迹和语音识别方面非常流行。
深度学习算法
具有用于非线性处理单元的级联层的算法通常用于深度学习。每层使用来自前一层的输出作为输入。深度学习还包括对应于不同抽象级别的多个级别的表示。这些层次发展成概念的层次结构。
一种称为“特征提取”提供了深度学习的另一个方面。这会自动为学习和理解构建有意义的“特征”。在特征提取中训练 AI 实体需要三种不同的样本,称为“目标”、“非目标”和“混淆器”。目标图像(例如汽车)显示在多张照片中。非目标图像没有显示汽车,而混淆器是可能会混淆 AI 实体的图像。
深度学习训练技术提高了 AI 实体检测、识别、分类和描述的能力。深度学习领域发生的许多进步包括:
算法的发现提高了深度学习技术的性能。
提高各种 AI 识别技能的新方法。
适用于图像分类和文本翻译等应用的新型神经网络。
显着更多的数据可用于使用许多深层构建神经网络。
使用图形处理单元,结合云,为深度学习策略提供令人难以置信的计算能力。
深度学习的优势
深度学习和神经网络的使用目前为图像识别、语音识别和自然语言处理中出现的许多问题提供了最佳解决方案。深度学习网络也可以成功应用于大数据、知识应用和预测。
深度学习减少了对特征“工程”的需求,这在机器学习行业是一个非常耗时的过程。此外,它的架构可以相对容易地调整以处理新问题。处理语言、视觉和时间序列问题需要诸如循环神经网络、卷积神经网络和长短期记忆 (LSTM) 等技术来处理数据。
大多数处理顺序数据的算法都带有一个包含最后 10 个时间步长的内存。然而,长短期记忆(由 Jürgen Schmidhuber 和 Sepp Hochreiter 于 1997 年发明)没有相同的限制。它与循环神经网络一起工作,让网络从过去的数百个时间步长中获取活动,并使用它们做出更准确的预测。在过去的 10 年里,LSTM 网络普遍被忽视,但它们的使用持续增长,这也是深度学习如此成功的原因之一。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|