全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2383 5
2013-05-15
y=a+b+ab(1)y=a+b(2)
为何在(2)中AB都1%显著,在(1)中,三个解释变量都不显著呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-5-16 03:39:04
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 09:58:50
这些项之间并没有必然联系和规律。如果数据量不足够大,越多的项很可能造成更多的非sig的估计值,是较正常的现象。在不同的组合中,如果a和b都没有意义,而a*b有意义,或许值得进一步探讨。另外,包含交叉项,也更改了定义域或者向量空间,在解析个别effect时应区别对待。说白了,如果包含了A*B,A,B的估计值和不包含A*B是两码事,如何要求他们应该前后一致呢?。我想,for example, height+weight may predict gender. but when including one more BMI (similar to height*weight), all terms may predict nothing.
京剧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 12:35:51
jingju11 发表于 2013-5-16 09:58
这些项之间并没有必然联系和规律。如果数据量不足够大,越多的项很可能造成更多的非sig的估计值,是较正常的 ...
有没有可能是因为a的样本太少了,我这里a是虚拟变量(取0 or 1)、b是连续变量,由于a取0的值在样本中的比例不到5%,所以造成了严重多重共线性,引起了不显著呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-18 04:27:15
小家碧玉emily 发表于 2013-5-17 12:35
有没有可能是因为a的样本太少了,我这里a是虚拟变量(取0 or 1)、b是连续变量,由于a取0的值在样本中的比 ...
你的理解显然比我深得多。我很少关注MULITCOLINEARIT现象。但是,极端不均衡的数据也许会导致估计上的问题。京剧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-18 11:46:13
jingju11 发表于 2013-5-18 04:27
你的理解显然比我深得多。我很少关注MULITCOLINEARIT现象。但是,极端不均衡的数据也许会导致估计上的问题 ...
谢谢,大概明白了,呵呵
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群