这个真的需要看情况定。
一般首先看这个变量的值的分布图,看是不是有什么异常值。异常值的处理有几种方式:
- 如果很明显异常值是由于输入/测量错误,那么应该舍弃这个异常值:例如,在一个健康数据中,如果一个成年女人的体重是19斤,明显是输入错误,也许应该是91斤,或119斤,但我们不得而知,所以只好删掉这个值;
- 如果在一个正态分布的变量中,一般高于3或低于-3的 z-score 都可以视为异常值,而被删除。尤其是当这个值的存在会显著的改变分析结果。
- 另外还有一个方法是对变量进行处理,比如经济中常用的对收入的处理,因为测量误差很多,可以取log把异常值的影响减小。
总之,每个数据不一样,要先熟悉自己的数据,多尝试几种分析结果。