先看一个基本算例:
. dis ln(10000)
9.2103404
. dis ln(100)
4.6051702
. dis ln(10)
2.3025851
你可以发现,ln(10000) 和 ln(10) 的差异不足 7,而原始值的差异(10000-10)却非常大。也就是说,通过对数转换,那些非常大的观察值会明显变小,而所有观察值的相对顺序却没有发生变化。简言之,对数转换是克服离群值的一个重要方法。
除此之外,在公司金融中经常使用的是 winsorized 缩尾处理,基本思想是把 1% 和 99% 分位以外的观察值分别替换为这两个百分位上的数值,以达到消除两端离群值的目的。
更新版的stata初级视频会非常详细地介绍这个主题。