【从零开始学统计】2.可决系数真的决定一切么？

2943

收藏 2016-03-22

本期系列文的主题是——从零开始学统计。感谢人大经济论坛坛友@胖胖小龟宝的倾情奉献。一如既往，如果大家有好的文章，欢迎发送至http://www.zhihu.com/question/22935472；当然本坛里也展开过一个关于计量和统计两学科区别的讨论，大家也可看看https://bbs.pinggu.org/thread-2930588-1-1.html）
那我先来说说我对这个R2的理解吧：R2是什么？它就是可决系数（coefficient of determination），也被称为拟合优度。说到拟合优度一般理解为回归直线与观测值的一个拟合程度，请看图：

如果样本回归线对样本观测值拟合程度越好，各样本观测点与回归线靠得越近，由样本回归做出解释的离差平方和与总离差平方和越相近；反之，拟合程度越差，相差越大。（说的更简单点，R2越大，自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集）。既然是平方那么可决系数的取值范围在0到1之间，它是一个非负统计量。试想如果所有的点都在直线上，一点也没有离开直线，那就说明拟合度很好，是1。就是能够完全解释。而现实情况肯定没有这样的。就比如你的努力程度和历次考试成绩，虽然越努力成绩越好，但是你不能保证自己没有失误啊。这个失误就是残差，但是失误肯定不是主要部分，所以R2还是很大的。R2没有很明确的界限，说什么就是好什么就是不好，有的时候时间序列的拟合程度都不是很好，甚至只有0.3到0.4，所以要综合来看，没有很确定的界限。例如，考虑这样一个例子。在冬季的几个月里，人们经常通过燃油取暖，因为取暖用的燃油在冬季的销售额比在夏天的销售额要高。同样，滑雪设备的销售额在冬季也比夏天要高。事实上，如果我们打算运行一个以滑雪设备的销售额作为自变量x以及取暖用的燃油的销售额作为因变量y的回归模型，那么产生的模型将是很好的模型，并具有很高的R2数值。不过，我们知道滑雪设备的销售额并没有造成人们购买更多的家用取暖的燃油。当然还有其他情况，比如当回归直线是平行于x轴，并且与原始数据的散点图拟合度也非常高，但R2=0.说明一个低的R2数值，并不一定意味着回归模型缺乏可信度。（极端举例）又或者，一个高的R2数值但原始数据的散点图表明因变量y的观测值用一条曲线拟合比用一条直线拟合的效果可能会更好。（这是我们也会考虑参考其他拟合指标，比如AIC准则……）so，楼主觉得R2数值有时会给出有关线性回归模型对数据拟合程度好的误导信息。一般说来，较高的R2数值比较低的R2数值要好。接受回归模型足够好的R2数值的决定因素主要取决于这个模型的应用目的以及经验和良好的管理知识。在扩展一下，拟合优度检验和F检验有区别吗？还是有区别的，拟合优度是指这个模型对于数据来说，解释变量能够解释被解释变量的程度，F说明的是整个模型中所有的解释变量的显著程度，和T值是对应的。在问，那R2与R的关系呢？撇开平方不说，R指的是线性相关系数，也就是说因变量和自变量之间的线性相关程度（注意强调的是线性！），如果两者关系很大，那么自然用他们做出的模型当然比较好用自变量解释因变量。（当然这又要引申出多重共线的问题了……这就不深究了）楼主也希望听听大家的见解，特别是看到知乎上的那位学计量的高票答案，有些确实说的有道理，但可能作为学统计的我，确实有些地方也不太能完全赞同吧，不知大家怎样觉得？
本文作者：人大经济论坛@胖胖小龟宝
更多内容敬请关注CDA数据分析师