rockfido 发表于 2010-6-23 23:12 
3# BraveMadMan
我也觉得应该用ADJ-R2更合理。不过我的工作中,以前的RESULT里面,似乎大家都只看R2。
楼主大概需要换个工作了 :) 当然只看ADJ-R2。要不然我只需要增加足够的自变量(包括chicken shit。见下边的笑话),我的模型的R2就会接近于1。
BTW,模型的理论是什么意思呢?
其实我做模型的时候,还有一个疑问,就是有些变量,总是不SIGNIFICANT,但是实际的经验告诉我们,他们就是很重要的,请问在这种情况下,该不该KEEP他们呢?
另外,变量是不是SIGNIFICANT,还跟加入的其他变量有关。比如只有变量A的时候,他是SIGNIFICANT的,但是假如了变量B,他就不SIGNIFICANT了。。。。但实际用途中,变量A和B是比较重要的,这种情况下,该不该KEEP变量A呢?
一般来讲,计量模型是由理论决定的,这包括用什么样的模型和用什么样的变量。比如你要研究什么决定一个人的收入水平,要从经济理论中寻找相关的变量,比如教育水平,肤色等,而不是想当然的找一些变量来凑数。如果理论建议的变量不显著,你要进一步寻找这个不显著是由什么造成的,找到一个合理的解释。其中一个原因是你找到的变量并不是理论上说建议的那个。
很多变量在回归分析都可能是统计显著的,但不代表他们之间有什么实际联系。讲一个听来的笑话。有人在某学术会议,讲一片文章,说某某变量显著什么的,所以这个变量很重要。下边有人问,你为什么不把chicken shit也放进去回归一下,也可能是显著的。这个笑话是说,计量模型是要由理论来指导的,而不是简单的陈述统计上的结果。
如果A和B是统计相关的话(highly correlated),加入B变量后,A会变得不显著是因为B的加入会导致A变量的sampling variance变大,从而统计不显著。计量上称为multicollinearity。