内容介绍:
从1960年开始,许多理论研究致力于发展对假设的微小偏离耐抗的统计方法,即要求其关于异常值稳健且关于对假定的参数模型出现的小偏离保持稳定。实际上,就如你我所知道的,在出现关于严格模型假设的微小偏离情形下,经典的最优化方法往往表现不佳。
另一众所周知的事实是,筛选数据、移除异常值,然后应用经典方法处理数据并不是一种简单有效的方法。首先,对于多元或高维数据,想要找出异常值或识别影响观测是非常困难的。其次,相对于移除观测,降低不定观测的权重似乎是更好的处理方法。当然,对于完全错误的观测,我们有理由直接剔除。此外,剔除观测会降低样本容量,可能影响分布理论,方差也有可能被低估。最后,经验性证据显示好的稳健方法表现好过基于剔除异常值的处理方式。
稳健统计方法集中研究估计、假设检验和回归模型。关于稳健性问题,存在很多的处理方法。其中,基于M估计量(大错敏感度)与高崩溃点估计量(崩溃点)的两种重要的处理方法相辅相成。某个估计量的崩溃点是指,在不致使估计量达到参数空间边界前提下,可被任意移除的数据比例:从而崩溃点越高,估计量对于完全异常值越稳健。但是,崩溃点并不足以判定估计量的稳健性。反而,大错敏感度给出了稳健性的精确度量。大错敏感度指的是估计量影响函数的上确界,用于度量一个观测可对估计量施加的最大影响。关于稳健统计的参考书目,Huber(1981)和Hampel(1986),包括Staudte和Sheather(1990)主要致力于理论研究,而Rousseeuw和Leroy(1987)则更偏重应用。
现阶段,稳健方法的实际应用仍然十分局限,相关建议也主要关注在一类特殊的应用上(其中具有代表性的是,刻度估计和包含位置与刻度模型的回归模型)。鉴于这点,R软件中存在大量的新程序需求。两本关于S和R函数中稳健统计实际应用的文献分别来自Marazzi(1993)和Venables与Ripley(2002)。
附件列表