对这个问题进行思考是因为:
我发现目前做实证研究的人有一部分通过回归数据去倒推研究假设,因为对于同一个问题的两面有不同的理论解释。跟同学讨论之后,他觉得这有其合理性:国外的理论能够说明因变量与自变量们有关系,但是这种关系也许不能在中国成立,所以在数据出来之前无法做出明确的假设;另外一种情况是,对于一个新的研究领域,理论只能解释到一个层面,接下去的突破只能靠观察。而观察只能知道因变量与自变量之间有关系,但不能明确是正向还是负向的。
开始的时候我不认同这种说法,因为如此下来,我们的研究并不是通过逻辑推导出来的,而是根据数据反推出来的。但是后来觉得确实也有合理性,否则当下不会激励提倡大数据的应用。
但是,这么做的前提应该是回归模型没有遗漏主要的变量,或者说自变量对因变量的拟合程度高,否则回归的结果极可能在加入被遗漏的变量之后出现变化。
然而,我发现,即便是管理世界这样的顶级期刊发出来的文章,R平方的数值都很小,在10%以下。这就有问题了,说明现有自变量对因变量的拟合程度是不高的,那么在加入被遗漏的变量之后结论会不会改变呢?这种不确定性对研究的可靠性是致命的。
但是现在大家对R平方的重视程度似乎已经没有了,我十分困惑。
希望各位大大指点,谢谢!