如果根据理论或逻辑已经预设了变量间的因果关系,那么就无需使用实验方法。我对非实验数据分析工具的选择原则如下。
因变量为连续变量,自变量至少有一个连续变量,进行多元线性回归;
因变量为连续变量,自变量全部为分类变量,进行方差分析;
因变量为分类变量,自变量至少有一个连续变量,使用Logit模型或Probit模型;
因变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验;
因变量在某个闭区间内分布,并且有较多样本落在闭区间的边界上,使用Tobit模型;
因变量不唯一,如多产出问题,进行数据包络分析(DEA);
因变量为整数、数值小、取零个数较多,使用计数(Count)模型;
数据具有层次结构(嵌套结构),使用多层线性模型(HLM)。
随着统计和计量经济学的发展,各种前沿分析工具层出不穷,但我认为最靠谱的分析工具不外乎以下四种:DID(针对随机实验),多元线性回归,固定效 应变截距模型(FE,针对面板数据),Logit模型或Probit模型(针对分类因变量数据)。其他方法或适用条件苛刻,或分析过程折腾,或方法本身不 可靠(尤其是聚类分析、判别分析,超级不靠谱),因此能用以上四种方法分析问题时,不必为“炫方法”而瞎折腾。
关于拟合优度、变量选择原则及估计值绝对大小的意义
在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”
很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者二者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是 时序数据,只要拿有点相关关系的变量进行回归就能使拟合优度达到80%以上,但这样的高R方根本说明不了什么,很可能使分析者陷入伪回归的陷阱,严谨的做 法当然是做平稳性检验和协整检验;如果是截面数据,根本没必要追求R方到80%的程度,一般来说,有个20%、30%就非常大了。
如果一定要增大R方,那么最应该做的的确是对纳入模型的变量进行选择。选择纳入模型的原则我认为有三条。第一,从理论和逻辑出发,将可能影响因变量 的变量作为自变量纳入模型,即理论上或逻辑上能影响因变量的自变量必须纳入模型,即使该自变量的回归系数不显著。第二,奥姆剃刀原则——如无必要,勿增实 体,即理论上或逻辑上不能影响因变量的自变量不能纳入模型,即使该自变量的回归系数显著。第三,防止纳入具有多重共线性的自变量。
前面说了,对截面数据进行计量分析,R方能达到20%、30%是非常了不起的事情。但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或 更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。譬如lnY=alnA+blnB+…+zlnZ+c回归的R方为20%,a 为0.375,b为0.224,且二者的T检验显著,那么我们可以说,A、B对Y有影响,也可以说一百分点的A变化对Y的影响大于一百分点的B变化对Y的 影响(控制其他因素的情况下),但说一百分点的A变化对Y的影响较一百分点的B变化对Y的影响大0.151%,就没什么意义了。

其他一些建议或忠告
用心思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?
仔细选择自变量,不要遗漏重要变量,否则会造成内生性问题。如果遇上了内生性问题,先不要忙着寻找工具变量或使用2SLS,寻找被遗漏的变量才是最 重要的事情。如果被遗漏的变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳的工具变量,那么恭喜你,你可以在核心期刊发文章了!
一定要控制其他可能对因变量产生影响的因素,并认识到对回归系数和偏相关分析结果的解释都是建立在“其他条件不变”的情况之下。
看到R方很大时不要忙着高兴,如果F检验显著而T检验不显著,很可能存在多重共线性。看到t值很大时,也不要忙着高兴,因为这很可能是伪回归的产物;如果此时DW值很小(小于0.5),那么伪回归的可能性进一步变大。
均值比较虽然简单却考验分析者的严谨性。两个看似不同的平均数、中位数或比率是否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较的是平均数、中位数还是比率差异?
样本量限制了所能做的分析,小样本时请珍惜自由度;不要用小于30个样本的数据进行计量分析(尤其是时序分析)和复杂的统计分析;不要以为能从小于或等于5期的数据中看出什么“发展趋势”;不要没有依据的使用复杂的模型和分析方法;不要将一目了然的简单问题故意复杂化。
最重要的,不要造假!不对数据本身造假,也不对分析结果造假!数据分析前可以进行一定的清洗,将奇异值去掉,也可以尝试对未预料到的分析结果进行探讨和解释,但如果去改数据改分析结果,那还有什么必要进行数据分析呢?直接编文章编报告不就得了?某些“诡异的”、不合常理的数据分析结果,很可能就是研究最重要的所得。
以上,如有错误,敬请指正;如有补充,欢迎留言,我会加进文中。
后记:过完年就要去工作了,每想及此就颇为伤感。在北大两年多,除了让自己更加理想主义外,除了爱上燕园的学术氛围和结识到一些好朋友好师长外,我 学到并且目前还记得的知识并不多,且这些知识大多停留在“术”的层面。当然,“术”之道亦博大精深,我所掌握的不足万一。之所以还敢写下上面的文字贻笑大 方,是想为需要的人提供帮助,也是以此形式悼念自己逝去的大学时光。感谢丁延庆老师,感谢邵宜航老师,感谢所有给我以指导和帮助的师长与朋友