调整后的拟合优度(Adjusted R-squared)可能会出现负值,这主要是因为它的计算方式与普通R-squared不同。普通R-squared是一个比例,表示模型解释的变异量占总体变异量的比例,其范围理论上应在0到1之间。但是,当在模型中加入更多预测变量时,即使这些变量没有增加太多信息或者完全没有贡献,普通R-squared也会因为模型复杂度的提升而增加。
为了修正这一问题,调整后的R-squared被引入。它的计算公式考虑了模型的自由度(即模型中的参数数量)以及观测数据的数量。具体来说,它会惩罚那些虽然增加了变量但并未显著提高预测精度的情况。在样本量较少或者无效变量过多的情况下,这种惩罚可能会导致调整后的拟合优度低于零。
这背后的原因是当模型中包含大量对因变量没有实际贡献的自变量时,模型预测能力实际上变差了,而调整后R-squared的计算公式能够反映出这一点。简而言之,如果新增加的变量不能提供足够的信息增益来弥补自由度减少的影响(即过度拟合),那么调整后的R-squared就可能下降到零以下。
因此,在选择最佳模型时,我们往往会优先考虑那些有较高正数调整后R-squared值的模型,因为它表明了在考虑到模型复杂性之后,模型仍然具有较好的解释能力和预测能力。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用