全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
908 0
2020-10-10
了解跨数据科学管道的交叉验证
交叉验证是数据科学中常用的一种技术。大多数人认为它在数据科学流程中(即在训练模型时)只占很小的一部分。但是,它在模型选择和超参数调整中具有更广泛的应用。
让我们首先探讨交叉验证本身的过程,然后看看它如何应用于数据科学管道的不同部分
交叉验证是一种重采样过程,用于评估有限数据样本上的机器学习模型。在 ? -倍交叉-验证,原始样品被随机地划分成 ? 大小相等的子样品。在 k 个子样本中,保留了一个子样本作为 用于测试模型的 验证数据,其余的 k  -1个子样本用作训练数据。
在模型训练阶段,交叉验证主要用于应用机器学习中,以根据看不见的数据估算机器学习模型的技能,以克服过度拟合之类的情况。k的选择通常为5或10,但没有正式的规则。交叉验证是通过KFold()scikit-learn类实现的。极端地讲,对于k = 1,我们得到了一个单独的训练/测试对,以评估模型。交叉验证还有其他形式,例如分层交叉验证
图片来源:请看 这里
现在,让我们回顾一下基于“在周末学习机器学习编码基础”中使用的THIS分类代码的分类的端到端步骤:
分类代码概要
1.加载数据
2.探索性数据分析
分析目标变量,
检查数据是否平衡,
检查相关关系
3.分割数据
4.选择基准算法
训练和测试模型
选择评估指标
优化我们的数据集
特征工程
5.测试替代模型-集成模型
6.选择最佳模型并优化其参数
在这种情况下,我们在下面概述了另外两种可以使用交叉验证的情况
选择其他型号和
在超参数调整中
我们在下面解释这些
1.选择替代模型:
如果我们有两个模型,并且想查看哪个模型更好,我们可以使用交叉验证比较给定数据集的两个模型。对于上面列出的代码,这将在以下部分中显示。
“”“ ###测试替代模型
logistic = LogisticRegression()
cross_val_score(logistic,X,y,cv = 5,scoring =“ accuracy”)。mean()
rnd_clf = RandomForestClassifier()
cross_val_score(rnd_clf,X,y,cv = 5,评分=“准确性”).mean()
2.超参数调整
最后,交叉验证还用于超参数调整
根据交叉验证参数调整网格搜索
“在机器学习中,通常在数据管道中同时完成两项任务:交叉验证和(超)参数调整。交叉验证是训练学习者使用一组数据并使用另一组数据进行测试的过程。参数调整是为模型参数选择值以最大化模型准确性的过程。”
因此,总而言之,交叉验证是一种在数据科学流水线的多个部分中使用的技术

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群