全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4755 8
2022-03-25
请问大家,smote过采样算法在实际应用中,做数据分析(比如logistic回归)是应该用合成数据,还是用原数据呢?过采样之后的合成数据能够用来做哪些操作呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-3-26 19:03:00
当然是用SMOTE之后的数据,本身该抽样方法就是解决样本量不平衡造成的过学习
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-3-26 22:23:43
liujiajin 发表于 2022-3-26 19:03
当然是用SMOTE之后的数据,本身该抽样方法就是解决样本量不平衡造成的过学习
那请问,用smote拟合出的模型在验证集检验的时候,验证集应该用原始数据是吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-3-27 19:22:07
jww- 发表于 2022-3-26 22:23
那请问,用smote拟合出的模型在验证集检验的时候,验证集应该用原始数据是吗?
哦我可能懂你的意思了
1、原数据划分为 训练集+测试集,这种情况你直接用训练集SMOTE,测试集原始数据就ok了。
2、原数据无划分,你直接用原来的数据进行测试,那肯定是SMOTE数据进行训练,原始数据进行测试。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-3-27 19:23:08
测试集要尽可能使用可以直接取得的数据,SMOTE后的测试集就算跑的通也没有现实意义。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-3-29 21:32:22
liujiajin 发表于 2022-3-27 19:22
哦我可能懂你的意思了
1、原数据划分为 训练集+测试集,这种情况你直接用训练集SMOTE,测试集原始数据就 ...
太棒啦,谢谢你!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群