所谓异常值,大概包括NA、NaN、离群点、极值这些吧。NA、NaN一般是需要预处理的,但是离群点我们在回归并检验之前其实也不知道具体是哪个或哪些样本,那么我们如何处理才算合理呢?而数据是否异常,不能从离散程度判断,而是从现实合理性判断。如果现实是合理的存在,那为啥要处理掉呢?
另外当样本量够大时,离群点影响也会很小,只要回归方程和变量系数通过显著性检验就可以。
换个角度,回归本身只是找出大致的关系表达,是存在误差的,这其实也是过拟合和欠拟合的平衡问题。
回归之前做方差齐性、共线性检验,回归过程中做变量筛选,就可以了。