如何选择
机器学习模型-一些准则
在本文中,我们探索了一些选择机器学习模型的广泛指导
机器学习/
深度学习的总体步骤是:
收集数据
检查异常,丢失数据并清除数据
执行统计分析和初始可视化
建立模型
检查准确性
展示结果
机器学习任务可以分为
监督学习
无监督学习
半监督学习
强化学习
PS-在本文档中-我们不关注最后两个
以下是选择机器学习/深度学习模型的一些方法
总体方法
处理不平衡的数据:使用重采样策略
创建新功能 :主成分分析(PCA)以减少尺寸,自动编码器创建潜在空间,并可能通过聚类创建新功能
为防止线性回归中的过拟合,离群值和噪声-使用套索和山脊等正则化技术。
克服黑匣子AI问题-考虑建立可解释模型的策略
对离群值不敏感的算法:关于选择随机森林克服离群值的一些讨论
机器学习模型
预测连续值的 第一方法:线性回归通常是预测连续值的很好的第一方法(例如:价格)
二进制分类:逻辑回归 是二进制分类的良好起点。支持向量机SVM也是两类分类的不错选择
多类别分类:随机森林 是多类别分类的一种选择。查看SVM与随机森林的用法
首先有最简单或最简单的模型类别吗?决策树 通常被视为易于理解和使用。决策树是通过诸如“随机森林”或“梯度提升”之类的模型实现的。
Kaggle 使用哪些模型?对于监督学习:随机森林和XGboost参见有关 梯度增强树的注释
深层学习模型
难以指定的复杂功能,但有大量带有标签的示例:多层感知器
基于视觉的机器学习:图像分类,目标检测,图像分割–卷积
神经网络
序列建模任务:用于序列建模任务(例如文本分类或语言翻译)的RNN(通常为LSTM)
1