从领域知识看,有时,看似异常的值可能是有效数据点,如棉花价格可能因干旱或贸易禁运而飙升,考虑这些因素应该决定是否将此类数据视为异常值。也可以从异常值等统计学的方法考虑,参考以下步骤,
1. 识别异常值的统计方法
如果数据呈正态分布,距离平均值超过三个标准差的值通常被视为异常值。
通过定义样本值的限值来识别异常值,这些限值是低于第一四分位数或高于第三四分位数的 IQR 因子 k。对中等异常值,k通常设置为 1.5,对极端异常值,k 设置为 3。
2. 数据可视化
可直观地识别箱线图晶须之外的点作为异常值。散点图适用于想要查看价格数据相对于时间等其他变量的分布时。
3. 过滤异常值
根据具体情况,可决定直接删除被识别为异常值的数据点,尤其是当数据输入错误或来自不可靠的来源而导致的时候。
过滤掉没有意义的值,如与该时期的一般市场趋势相比,棉花价格极高或极低。
4. 数据转换
应用对数、平方根甚至Box-Cox变换等变换有时可以规范数据,易于识别和处理异常值。
5. 稳健缩放
删除中位数并根据分位数范围缩放数据缩放特征(如 IQR)。