机器学习的流行分类模型
作为人类,我们全天都会做出多项决定。
例如,什么时候醒来,穿什么衣服,给谁打电话,走哪条路线,如何坐着,等等。尽管其中一些是重复性的,我们通常不注意(并允许其在潜意识中完成),但还有许多其他是新的并且需要有意识的思考。
而且我们一路学习。
同样,企业将过去的经验应用到与运营和新计划相关的决策中,例如与对客户,产品等进行分类有关。但是,由于涉及多个利益相关者,因此在这里变得更加复杂。此外,由于影响范围较大,因此决策必须准确。
随着数字技术的发展,人类开发了多种资产。机器就是其中之一。我们已经学习(并继续)使用机器来使用统计数据来分析数据,以生成有用的见解,从而有助于做出决策和预测。
机器不执行数据魔术,而是应用简单的统计信息!
在这种情况下,让我们回顾一些常用的用于分类的机器学习算法,并尝试了解它们如何工作并相互比较。但首先,让我们了解一些相关概念。
基本概念
监督学习被定义为
数据分析的类别,在该类别中,目标结果是已知的或带有标签的,例如,客户是否购买了产品。但是,如果打算根据每个购买的商品对它们进行分组,那么它将成为无监督的。可以这样做以探索客户与其购买的商品之间的关系。
分类和回归都属于监督学习,但前者适用于结果有限的情况,而后者则适用于结果的无限可能值(例如,预测购买价值)。
正态分布是连续变量熟悉的钟形分布。这是参数通常采用的值的自然分布。
考虑到预测变量的取值范围可能不同,例如,体重可能高达150(kgs),但典型的身高只有6(ft);这些值需要缩放(在各自的平均值附近)以使其具有可比性。
共线性是指两个或多个预测变量相关时,即它们的值一起移动。
离群值是预测变量的异常值,可能正确也可能不正确。
回归与分类
逻辑回归
Logistic回归利用回归的能力进行分类,并且几十年来一直做得非常好,一直保持在最受欢迎的模型之中。该模型成功的主要原因之一是其可解释性的强大功能,即定量地调用各个预测变量的贡献。
与使用最小二乘的回归不同,该模型使用最大似然将S型曲线拟合到目标变量分布上。
给定模型对多重共线性的敏感性,逐步确定模型是最终确定模型的所选预测变量的更好方法。
该算法是许多自然语言处理任务(例如有毒语音检测,主题分类等)中的流行选择。
逻辑回归模型
人工
神经网络
所谓的人工神经网络(ANN)试图模仿人的大脑,适用于大型和复杂的数据集。它们的结构包括中间节点(类似于神经元)的一层或多层,这些中间节点一起映射到多个输入和目标输出。
这是一种自学习算法,因为它以初始(随机)映射开始,然后以迭代方式自我调整相关权重,以针对所有记录微调至所需输出。多层提供了
深度学习功能,能够从原始数据中提取更高级别的功能。
该算法提供较高的预测精度,但需要按比例缩放数字特征。它在包括计算机视觉,NLP,语音识别等未来领域中具有广泛的应用。
分类模型-人工神经网络
随机森林
随机森林是多个决策树(或CART)的可靠集合;尽管在分类上比回归应用更受欢迎。在这里,通过装袋(即引导程序的聚合,仅通过通过记录替换记录创建的多个火车数据集)构建单个树,并使用较少的特征进行拆分。由此产生的不相关树木的多样化森林表现出减少的变异;因此,它对数据变化更健壮,并将其预测准确性带入新数据。
但是,该算法不适用于具有大量异常值的数据集,这需要在模型构建之前解决。
它在金融,零售,航空和许多其他领域具有广泛的应用。
分类模型-学习随机森林的指南
朴素贝叶斯
虽然我们可能没有意识到这一点,但这是最常用于筛选垃圾邮件的算法!
它使用贝叶斯定理应用所谓的后验概率对非结构化数据进行分类。这样,它就天真地假定了预测变量是独立的,这可能不是正确的。
如果存在分类预测变量的所有类别,则该模型可以与较小的训练数据集很好地配合使用。
分类模型-朴素贝叶斯
知识网络
K最近邻(KNN)算法根据指定的数量(k)最近邻数据点进行预测。在这里,数据的预处理非常重要,因为它直接影响距离测量。与其他模型不同,该模型没有数学公式,也没有任何描述能力。
在这里,需要明智地选择参数“ k”。低于最佳值的值会导致偏差,而较高值则会影响预测精度。
这是一个简单,相当准确的模型,由于连续预测变量涉及大量计算,因此最适合较小的数据集。
在简单的水平上,可以在双变量预测变量设置(例如身高和体重)中使用KNN来确定给定样本的性别。
分类模型-KNN
全部放在一起
模型的性能主要取决于数据的性质。鉴于业务数据集带有多个预测变量并且非常复杂,因此很难选择出一种总是可以很好地工作的算法。因此,通常的做法是尝试多种模型并找出合适的模型。
作为高级比较,上面每种算法通常发现的显着方面在下面列出了一些常用参数;用作快速参考快照。
概要
此外,除了模型超参数调整之外,还有多种杠杆,例如数据平衡,插补,交叉验证,算法间的集成,较大的火车数据集等,可以用来提高准确性。尽管预测准确性可能是最理想的,但企业也确实会寻找突出的预测因素(即描述性模型或其结果可解释性)。
最后,机器学习的确使人们能够定量地确定,预测并超越明显的事物,有时甚至进入以前未知的方面。
题库