【统计小百科】你知道AIC准则么？

57221

收藏 2014-04-01

   AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，又由与它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

   在一般的情况下，AIC可以表示为： AIC=2k-2ln(L)，其中：k是参数的数量，L是似然函数。假设条件是模型的误差服从独立正态分布。让n为观察数，RSS为剩余平方和，那么AIC变为： AIC=2k+nln(RSS/n)。

   增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

   经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：
AIC=-2 ln(L) + 2 k  中文名字：赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k  hannan-quinn criterion

   构造这些统计量所遵循的统计思想是一致的，就是在考虑拟合残差的同时，依自变量个数施加“惩罚”。但，倘若因此就说它们是同一个指标，恐怕还是有些不妥，毕竟“惩罚”的力度还是不尽相同的。此外，这些信息量的用途不仅限于选择模型，还能用于选取合适的变换等等。而在那些时候，这些信息量又是另一个模样，也就是说它们有许多变体。因此，它们也被称为AIC准则、BIC准则等等。它们中的每一个体现的都是一系列的标准，而非单独的一个简单式子。

   注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失（因为不知道真正的模型是什么样子，所以训练得到的所有模型都只是真实模型的一个近似模型），所以用这些规则不能说明某个模型的精确度，即三个模型A, B, C，在通过这些规则计算后，我们知道B模型是三个模型中最好的，但是不能保证B这个模型就能够很好地刻画数据，因为很有可能这三个模型都是非常糟糕的，B只是烂苹果中的相对好的苹果而已。

   这些规则理论上是比较漂亮的，但是实际在模型选择中应用起来还是有些困难的，例如上面我们说了5个变量就有32个变量组合，如果是10个变量呢？2的10次方，我们不可能对所有这些模型进行一一验证AIC, BIC，HQ规则来选择模型，工作量太大。