全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4494 16
2010-06-23
没有遇到过这样的实际问题。但是很想知道,实际工作中,到底是怎么操作的。

能想到的就是做STEPWISE,去除HIGHLY CORRELATED VARIABLES,通过PCA来集合VARIABLE,去掉贡献不多,但是花费很高的变量。

请问还有啥方法么?

另外,这个变量本来就是加越多,R2越大,到底该如何取舍呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-6-23 22:58:36
呵呵
降维处理
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-23 23:05:40
这个变量本来就是加越多,R2越大
一般人不关心R2,而只关心adj-R2。后者并不随变量的增多而增加。

另外,你的模型中的变量是由理论决定的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-23 23:10:01
2# crackman

请问你说的降维,是指做PCA么?或者还有其他什么常用的方法么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-23 23:12:47
3# BraveMadMan

我也觉得应该用ADJ-R2更合理。不过我的工作中,以前的RESULT里面,似乎大家都只看R2。

BTW,模型的理论是什么意思呢?

其实我做模型的时候,还有一个疑问,就是有些变量,总是不SIGNIFICANT,但是实际的经验告诉我们,他们就是很重要的,请问在这种情况下,该不该KEEP他们呢?

另外,变量是不是SIGNIFICANT,还跟加入的其他变量有关。比如只有变量A的时候,他是SIGNIFICANT的,但是假如了变量B,他就不SIGNIFICANT了。。。。但实际用途中,变量A和B是比较重要的,这种情况下,该不该KEEP变量A呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-23 23:29:45
其实,你的问题根本没有描述清楚,在实际中有分类等等,可是你好象表达的是做回归哦。这样数据做回归概率是0,因为这么多变量,每个变量对应2个样本这样也就好多,实际中不可能出现。你说的情况到目前为止,我见到就是microarray data,这种变量就是GENE的个数,最后你会发现其实样本就10个左右,这个时候pls用的最多
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群