全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1513 8
2017-12-15
特征选择时,在下有两个问题想请教一下:
(1)做变量筛选时,数据使用训练集还是全集?
(2)我在选择用训练集进行变量筛选时,训练集的大小会影响到我变量筛选的个数,大家有遇到过这样的问题吗?是怎么解决的?那如果数据量会影响到变量筛选的结果,那筛选以后的变量还可信吗?要怎么样才能使变量筛选的结果可信度增加?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-12-15 17:26:24
(1)做变量筛选时,数据使用训练集还是全集?
取决于你做什么模型。如果是supervised , 是训练集。 如果是unsupervised , 全集。

(2)我在选择用训练集进行变量筛选时,训练集的大小会影响到我变量筛选的个数,大家有遇到过这样的问题吗?是怎么解决的?那如果数据量会影响到变量筛选的结果,那筛选以后的变量还可信吗?要怎么样才能使变量筛选的结果可信度增加?

我猜测,你这是数据量比较小, 特征比较多。 导致统计上不显著。增加数据量后,会影响变量筛选。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-16 09:41:38
可以采用多次随机抽样,然后剔除影响都比较小的因素
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-18 09:14:57
jameschin007 发表于 2017-12-15 17:26
(1)做变量筛选时,数据使用训练集还是全集?
取决于你做什么模型。如果是supervised , 是训练集。 如果 ...
训练集数据15万,全集10万,特征变量10个,做变量筛选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-18 13:08:49
露露的家园2012 发表于 2017-12-18 09:14
训练集数据15万,全集10万,特征变量10个,做变量筛选
你用的什么方法筛选变量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-18 15:20:29
jameschin007 发表于 2017-12-18 13:08
你用的什么方法筛选变量。
lasso回归
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群