最近在看统计与回归方面的书,有些书中说,在做回归分析前要先检验变量的正态性,有些书中就没有提到这一点。再看论文,发现很多论文中也没有在正式数据分析前做正态假设检验。在网上搜了下,发现很多人对此观点也不一致。对此,写点自己的理解,期望和大家交流学习!
1.变量的分布是什么?
这个问题很基本。所谓变量的分布,既包含自变量的分布也包含因变量的分布。对于自变量的分布,实际上是从总体中抽取的样本的分布,也即是样本分布,如果总体就不是正态分布,那么所抽取的样本的期望也就不可能是正态分布。由此看来,自变量x的确不要求服从正态分布!
例如对于一元回归中,x就是从总体中抽取出的样本,假如X是年份,大家都知道,年份肯定是均匀分布,不可能服从正态分布的。
2.假如自变量不要求正态分布,那么因变量要不要求服从正态分布?
自变量可以不服从正态分布,于是,作为对应于自变量的因变量,应该也不用服从正态分布。
结论:自变量和因变量都不用服从正态分布!
不知道这样分析正不正确?请各位指教!