全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
717 0
2020-11-20
ML框架
机器学习解决方案可以大致分为3部分。一个典型的机器学习练习将涉及所有3个部分的实验和迭代,和/或3个部分中的1个在得出解决方案之前。
1.预处理:准备用于建模的数据。您是需要做什么的最佳法官,但以下是一些注意事项:
我的预期输出是什么?我可以使用的数据的性质和大小是什么?它是二进制的-0或1,群集概率吗?这将决定算法,方法(有监督,无监督)的选择,从而决定该特定算法的数据准备。
哪些是因变量,哪些是自变量?
变量是分类变量还是连续变量?我可以转置该变量或以其他方式表示它(例如对其进行编码)以使其更符合我的需求吗?
训练数据集和测试数据集已拆分。
类不平衡。
数据清理-删除NaN,重复项,错误条目等。
考虑-词干,词法去除,停用词去除,相似性度量(余弦相似性,编辑距离等),L1和L2正则化,归一化等。
特征选择-PCA-主成分分析,SVD或其他统计/数学度量。学术论文(Google学术搜索是一个很好的资源),研究报告,过去的实验,扎实的人为领域知识(排除错误指标)。
2.建模:
算法的选择很重要。我想要的结果是什么-我要如何解释它?我可以使用的数据的性质/大小/类别是什么?在预处理阶段完成的分析也与建模有关。这2个可以帮助您缩小搜索范围。
一定要查看学术论文(Google学术搜索)或业务报告或同事/在线/ kaggle等的其他示例,并查找以前做过的类似工作。请仔细注意其数据的性质,其输出,其执行的数据清除的类型,数据的大小,算法的选择,评估标准,结果以及这些结果的解释。如果存在紧密匹配或存在类似匹配(例如,相同类型的数据,但源不同),则可能有必要复制算法和整个方法,或者将算法应用于您的方法。
过拟合,欠拟合以及不同类型的交叉验证。
培训,测试和开发分离。
评价:
评估指标的选择与该特定评估指标中的评分一样重要。每个算法/方法通常都有一些与之紧密相关的评估指标,这主要是由于实践。有人认为,当类别不平衡时,“精确/召回”下的面积最好使用;对于其他情况,当需要平等地捕捉正负相关性时,ROC曲线下的面积会更好。有不同的思想流派。你有你自己的。除这两个指标外,还有其他评估指标。因为流行文化中很流行,所以我都以这两个为例。
问题是-我们要评估什么,我们要解释什么?什么指标可以帮助我以最小的偏见进行评估?
记录/测量结果。使用不同的算法选择和/或不同的预处理调整/选择进行迭代。
经验法则:
从ML的角度来看,不仅要在评估指标上得分高,而且还要确保在评估指标选择,数据集形成,类示例,过度拟合等方面没有偏见。只有这样,系统才能扩展并提供一致的结果。最终,只要以正确的方式设置了实验/建模框架,系统就会获得更多的数据以及更多的实验和学习。
训练数据集需要很好地表示最终将要使用的测试数据集。
记录选择和假设将有助于更长远的发展。
像所有实验一样-仅从实现,记录和测量结果,基于反馈的迭代中学习。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群