全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
793 0
2020-08-17
机器学习思维导图
机器学习(ML)是当今的热门话题。每个人都在谈论新的编程范例,模型是在非常不同的领域中实现的,越来越多的初创公司主要依靠ML。
同时,机器学习是一个具有几个不同维度的复杂领域。有时,即使是经验丰富的技术专家也几乎无法想象整个机器学习领域及其在该领域中的地位。很多人只是对ML感到好奇,还没有完全沉浸在这个主题中。对于那些人,了解机器学习的结构也很重要。
概念的可视化是确保正确理解和记忆特定领域的最佳方法之一。这正是思维导图可以帮助您完成的工作。我们已经准备好了机器学习思维导图,希望对您有用。请注意,机器学习是数据科学的一个子领域,范围更广。对于那些对数据科学感兴趣的人,我们可以推荐另一种材料 -Managers Mindmap。
在构建ML心智图时,我们使用了以下方法。我们从3个不同的角度研究了ML:任务类型,应用程序和方法。
任务类型分支
机器学习中有几种类型的任务。最常见的是有监督和无监督学习。其他类型包括半监督学习和强化学习。
监督学习 是一种任务,其中您的数据由输入要素表示并输出正确答案。您想教您的ML模型根据新(看不见的)数据上的输入特征来预测正确的输出答案。监督学习任务的示例是分类(预测类别/类别)和回归(预测值/数字)。同样,图像分割是监督学习的一个示例,因为在训练过程中模型应查看正确分割的图像。您应注意,某些不是生动的分类或回归示例的任务实际上属于这些类型之一。例如,可以将对象检测视为分类任务,因为我们查看图像(或图像的单独部分)并尝试回答以下问题:“是否存在对象?”。这个问题是二进制分类。
在无监督学习 的情况下,您只能输入数据,而没有正确的答案(输出)。聚类,异常检测或降维是无监督学习的典型示例。考虑集群:我们有数据,我们需要在其中检测集群。我们没有预先标记的数据,因此我们不知道哪个数据点属于哪个集群。ML模型应该在没有任何先验知识的情况下学习如何检测集群。这意味着无监督的学习。
半监督学习 结合了监督学习和无监督学习的功能。创建推荐系统时,通常会有一部分标记数据和一部分未标记数据。自然语言生成模型使用句子的前面上下文来生成下一个单词。但是他们的预测具有概率性质,这使我们有理由将它们纳入半监督学习类型。图像生成是一项任务,基于生成对抗网络,该网络是无监督学习算法,该算法使用监督损失作为训练的一部分。
强化学习 是一种特殊的任务,您的模型应使用奖励(来自环境的反馈)来学习如何独自做正确的事情。例如,您可以设置用于玩游戏的环境。如果模型表现不佳,则不会获得任何奖励积分。但是该模型的目的是使报酬最大化。因此,该模型将在下一轮游戏中更改其行为,如果此行为将产生比前一行为更多的奖励,则该模型将切换到该模型。在下一轮中,模型将尝试更改其他内容以进一步增加其增益,依此类推。强化学习是机器学习的一个有趣但复杂的子领域。
方法分支
现在,让我们探索思维导图的绿色分支-方法。在此分支中,我们包括了用于解决不同任务的方法。我们将所有方法分为 基于单模型的方法 和 基于多模型的方法。单一模型是仅使用一种模型的方法。它们可以分为统计模型,传统机器学习模型和神经网络
统计方法 是解决类似于机器学习的任务的第一种方法。它们包括降维方法,回归预测方法,数据分析方法等。例如,主成分分析(PCA)是众所周知的降维方法。分解矩阵广泛用于构建推荐系统。潜在狄利克雷分配(LDA)是用于主题建模的算法。移动平均值既可以用于分析先前的时间序列数据,也可以用于预测未来。
传统的机器学习方法可能是大多数初学者开始学习ML时想到的那些算法。许多方法都可以用于分类和回归(例如,支持向量机(SVM),决策树,k最近邻(KNN))。但是,其中一些更适合解决特定类型的任务。最终,有些模型只能用于特定任务。例如,K-means是一种仅用于解决聚类任务的算法,而logistic回归是一种纯分类算法(请不要混淆其名称)。
神经网络 是ML炒作最多的领域。同样,神经网络不过是具有特定结构的数学算法。有简单的神经网络(有时称为感知器)和深层神经网络。如今,深度神经网络处于ML进步的边缘。在计算机视觉和自然语言处理中所有这些很酷的事情主要是借助深度神经网络来完成的。深度神经网络最流行的类型是卷积神经网络,递归神经网络和生成对抗网络。
多模型方法需要使用多个单个模型来解决任务。 堆叠 是指我们使用几种不同的ML模型(例如,传统模型的类别),然后将其答案(输出)用作另一个模型的输入。可以有几层模型。这样的策略通常会产生很好的结果。但是,整个系统变得复杂,很难在生产中部署它。
套袋 意味着采用几种模型并平均其预测。例如,随机森林是决策树的集合。这允许减小方差,同时将偏差保持在稳定水平。您可以在我们的 文章中阅读有关偏差方差折衷的更多信息。
Boosting 是一种合奏方法,还使用许多基本模型来改善总体效果。与装袋不同的是,提升是算法的直接组成。这意味着将以减少先前创建的基础模型组成的错误的方式构建每个下一个模型。梯度增强的最流行实现是XGBoost和lightGBM。
应用部门
现在,我们将转到应用程序-心智图的最后一个全局分支。我们正在谈论使用机器学习的领域。这与机器学习可能有用的行业无关。这 与ML应用程序的类型 有关。但是,如果您对ML用例感兴趣,可以查看我们的“ Y顶级X数据科学用例”博客文章系列。
通常,机器学习应用的类型如下:降维,自然语言处理(NLP),计算机视觉(CV),异常检测,时间序列,分析和推荐系统。
降维 可以减少数据,同时保留最相关的信息。它用于图像和音频压缩,并用于机器学习模型创建管道中的特征工程。
自然语言处理 (NLP)是一个广阔的领域,与其他机器学习应用程序越来越分离。许多专家甚至将NLP视为独立主题。ML在NLP中的应用如下:主题建模,文本分类,情感分析,机器翻译,自然语言生成,语音识别,文本到语音,文本分析,摘要,实体识别,关键词提取。
像NLP一样,计算机视觉(CV)也正在成为一个巨大的独立主题。最著名的CV应用程序是图像分类,图像分割和对象检测。
异常检测 是一种旨在识别数据中意外的,非典型的东西的应用程序。异常检测分为新颖性检测,异常值检测和欺诈检测。同样,它可能不是新颖性也不是异常值,而是数据中某种奇怪的模式。我们不会在思维导图中包括这种情况,但是如果这样做,我们将其称为简单的“异常检测”。
时间序列 是我们处理基于时间的数据时的区域。例如,股票交易价格,天气数据,IoT传感器数据等。我们可以分析时间序列或预测可能的未来价值。
分析 是探索数据性质和模式的经典领域。有预测分析(预测未来或看不见的数据会发生什么),当前状态分析(无需建立预测模型就可以从当前数据中获得什么见解)以及优化问题(例如,探索如何从中获取信息)。 A点到B点的不同资源消耗最少)。
最后, [R ecommendation系统 ,在那里你有一组用户和某些内容的应用程序,并且要建立一个系统,该系统将能够推荐的相关内容供用户使用。这样的系统使用特殊的ML方法(例如分解机)来利用有关用户和内容项的已知数据。
结论
我们开发的思维导图旨在为那些不深入该领域的人们解释机器学习的结构。我们证明了可以从三个不同方面考虑机器学习:任务类型,方法(方法)和应用程序类型。显然,我们的思维导图无法涵盖有关机器学习等复杂领域的所有信息。该方案中未包含某些类型的任务,应用程序,尤其是算法。另外,我们认为有足够的空间来讨论某些要点。我们鼓励就我们的思维导图进行合理的讨论,但我们想提醒您,思维导图是作者团队的主观意见。希望这种思维导图将帮助某人踏上有趣的机器学习之旅。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群