全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
985 4
2021-09-25
交叉验证基本思路已经学会了,但是我有个问题,在交叉验证前,模型的建立是用的原始数据吗?交叉验证是不是也是在原始数据的基础上?

比如,我的数据集为mydata,根据统计学与实际情况,筛选变量,通过mydata(不拆分训练集和验证集)建立logistic模型,然后再用原始的mydata和刚才拟合的logistic模型进行K折交叉验证?

求指点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-9-26 10:51:31
交叉验证是吧数据分成三部分:训练集、验证集和测试集,使用训练集和验证集进行交叉验证
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-9-26 16:18:04
s609078902 发表于 2021-9-26 10:51
交叉验证是吧数据分成三部分:训练集、验证集和测试集,使用训练集和验证集进行交叉验证
那是不是就是说将原始数据分为三份,一份是训练集,一份是验证集,一份是测试集,使用训练集建立模型,使用验证集进行交叉验证(评价模型的泛化性),最后使用测试集测试(评价模型的准确性、区分度等)?

如果是分为三份,分配的原则是什么?均分?我看交叉验证时不是说应该所有数据都利用上了吗?另外,交叉验证不是针对小样本数据效果比较理想吗?如果是小样本数据,原始数据分为三份后,每一份的数据量不是更小了吗?

问的有点多,因为正迷糊着呢,见谅
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-9-26 17:50:00
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-9-27 15:07:51
dbcoffee 发表于 2021-9-26 16:18
那是不是就是说将原始数据分为三份,一份是训练集,一份是验证集,一份是测试集,使用训练集建立模型,使 ...
1. 先把全部数据 7:3 分成大训练集和测试集,
2. 再将大训练集 8:2 分成小训练集和验证集,
3. 使用小训练集和验证集进行交叉验证,选择最优超参数,
4. 然后使用最优超参数和大训练集训练最终模型,
5. 使用测试集评估泛化能力
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群