全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1543 0
2020-09-25
比较分类器:决策树,K-NN和朴素贝叶斯
存在众多的分类选项。通常,对于每种情况都没有一个“最佳”选项。也就是说,可以针对几乎每种情况调整三种流行的分类方法-决策树,k-NN和朴素贝叶斯。
总览
朴素贝叶斯(Naive Bayes)和K-NN都是监督学习的示例(数据已被标记)。  决策树易于用于少量类。如果要在这三个选项之间做出选择,最好的选择是对所有三个选项进行数据测试,然后看看哪个会产生最佳结果。
如果您不熟悉分类,那么决策树可能是您最好的起点。这将为您提供清晰的视觉效果,并且是掌握分类实际作用的理想选择。K-NN位居第二。尽管其背后的数学运算有些令人生畏,但您仍然可以创建最近邻进程的外观以了解该进程。最后,您需要深入研究朴素贝叶斯。数学运算很复杂,但是结果是一个高度准确且快速的过程,尤其是在处理大数据时。
贝叶斯表现出色
1.朴素贝叶斯是线性分类器,而K-NN不是。当应用于大数据时,它往往会更快。相比之下,对于大量数据,k-nn通常较慢,因为该过程中每个新步骤都需要进行计算。如果速度很重要,请选择“朴素贝叶斯”而不是“ K-NN”。
2.通常,朴素贝叶斯在应用于大数据时非常准确。不过,在准确性方面,请不要小看K-NN;随着K-NN 中k值的增加,错误率降低,直到达到理想贝叶斯的错误率(对于k→∞)。  
3.朴素贝叶斯为您提供两个超参数  以进行平滑调整:alpha和beta。超参数是先验参数,可在训练集上对其进行优化以优化它。相比之下,K-NN仅具有一个调整选项:“ k ”或邻居数。
4.该方法不受维度  和大型特征集的诅咒影响,而K-NN则存在问题。
5.对于诸如机器人技术和计算机视觉之类的任务,贝叶斯胜过决策树。
K-nn表现出色
1.如果具有条件独立性会严重影响分类,那么您将要选择K-NN而不是朴素贝叶斯。朴素贝叶斯可能会遭受零概率问题; 当特定属性的条件概率为零时,朴素贝叶斯将完全无法产生有效的预测。 可以使用Laplacian估计器解决此问题,但最终K-NN可能会更容易选择。
2.仅当决策边界为线性,椭圆形或抛物线形时,朴素贝叶斯才有效。否则,选择K-NN。
3.朴素贝叶斯要求您知道类别的潜在概率分布。该算法将所有其他分类器与此理想进行比较。因此,除非您知道概率和pdf,否则  使用理想的贝叶斯是不现实的。相比之下,K-NN并不要求您了解潜在的概率分布。
4. K-NN不需要任何培训 -您只需加载数据集即可运行。另一方面,朴素贝叶斯确实需要培训。
5.对于罕见事件, K-NN(和朴素贝叶斯)的表现优于决策树。例如,如果您要对一般人群中的癌症类型进行分类,那么许多癌症非常罕见。决策树几乎可以肯定地从模型中删减那些重要的类。如果您有任何罕见的情况,请避免使用决策树。
决策树在哪里
图片:抵押贷方的决策树。
1.在这三种方法中,决策树最容易解释和理解。大多数人都了解分层树,清晰的图表的可用性可以帮助您交流结果。相反,贝叶斯定理背后的基础数学对于外行人来说可能很难理解。K-NN在中间某处相遇;从理论上讲,您可以将K-NN过程简化为直观的图形,即使其基础机制可能超出了外行的理解水平。
2.决策树具有易于使用的功能,可以识别最重要的尺寸,处理缺失值并处理异常值。
3.尽管过度拟合  是决策树的主要问题,但可以(至少在理论上)通过使用增强树或随机森林来避免该问题。在许多情况下,茂密的森林或森林会导致树木的性能优于贝叶斯或K-NN。这些附加组件的不利之处在于它们为任务增加了一层复杂性,并损害了该方法的主要优势,即其简单性。
一棵树上更多的分支导致更多的过度拟合的机会。因此,决策树最适合少数类别。 例如,上面的图像仅分为两类:进行或不进行。
4.与贝叶斯和K-NN不同,决策树可以直接从数据表中进行工作,而无需任何事先的设计工作。
5.如果您不知道分类器,则决策树将从数据表中为您选择那些分类器。朴素贝叶斯要求您事先了解分类器。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群