R平方的替代项(具有加号和减号)
R平方可以帮助您回答以下问题:“与单纯模型相比,我的模型表现如何?”。但是,r 2远非完美的工具。可能的主要问题是每个数据集都包含一定数量的无法解释的数据。R平方无法说明可解释性和不可解释性之间的区别,因此它将继续进行下去,并试图完善其目标。如果通过添加更多的预测变量来保持r平方的“完美”,最终将导致误导性结果和降低的精度。其他一些问题包括:
R平方在很大程度上取决于您要输入的数据集。在某些情况下,查看数据的作用可能会很有用,但在许多“现实世界”情况下,您不仅想了解数据的内容,还想了解更多信息。您需要预测,而r平方不是预测工具。
尽管r 2是与朴素模型进行比较的出色工具,但有时您可能想知道模型与真实模型的比较,而r平方无法告诉您。
R平方趋于有点双极性。在某些情况下,较高的r 2可能是首选,而在其他情况下,较低的r 2可能是首选。这显然会造成混乱。
过度拟合 可能是一个巨大的问题。过度拟合是模型中过多的预测变量和高阶多项式导致对随机噪声(而不是真实趋势)进行建模的地方。
即使模型正变得更好地逼近真实模型,模型的R平方也会下降。 
R平方的优缺点
通常,r平方通常是“入门”,因为它易于使用和理解。实际上,所有统计软件都包括它-甚至包括Excel
数据分析之类的基本工具。您只需选中一个框,瞧!该软件为您提供模型所说明的y的百分比变化。
r 2的主要缺点之一是您可以继续在模型中添加项以增加它。模型不是很符合标准吗?再添加几个术语,它将是。再加上一些,任何模型(甚至是坏模型)都可以达到99%。基本上,如果您不完全了解您的数据(对于大型数据集,您可能不知道),那么知道何时停止添加术语可能会非常具有挑战性。
备择方案
不存在r平方的完美替代方案:每个选择都有其优缺点。
1.调整后的R平方
调整后的R平方是对模型添加过多项的修正。它将始终低于R平方,并且往往是更好的选择。但是,它也遭受着与原始2相同的许多陷阱。也许最重要的缺点是它不是可预测的,而只是处理您输入到其中的数据。
2.预测的R平方
预测的R平方(PRESS或预测的平方和)避免了“它仅处理现有数据”的问题。它衡量模型对新观测值的解释能力。除了具有预测能力之外,关键的一点是它可以帮助防止过度拟合。如果您的r 2 和预测r 2 值之间存在较大差异,则表明您的模型中的术语过多。
很大的缺点:它并不广泛可用。在撰写本文时,Excel尚未包含它,SPSS也未包含(尽管他们已经发布了解决方法)。一些选择:
Minitab 已将Predicted r 2添加到Minitab 17
在R中,某些程序包(如DAAG )包括Predicted r 2。PRESS也可以作为留一法交叉验证过程的一部分来实现(有关更多详细信息,请参见Theophano Mitsa的帖子)。
3.公式调整
r平方的公式不止几个(定义它们的范围不在本文的讨论范围之内,但是如果您感兴趣,请参阅Kvalseth等人,如Alexander等人中所引用)。一个简单而通用的公式如下所示。此特定公式的某些替代方法包括使用中位数代替总和(Rousseeuw),或使用残差的绝对值代替平方(Seber)。
更多的公式调整专门处理离群值问题。将它们包含在模型中可能会带来问题:线性回归模型中用于变量选择的最小二乘r平方对异常值敏感。根据Croux&Dehon的说法,仅添加一个异常值会产生巨大的影响。备选方案R 2 LTS(  Saleh)使用最少修剪的正方形;作者报告说此方法对异常值不敏感。Rousseeuw使用M估计器来达到类似的效果。
4.简单地报告统计数据
有时,您无法避免报告r 2,尤其是在发表论文时。如果您无法避免r平方,则可以明智地使用它。亚历山大等。建议您:
使用上述方程式从测试数据中获得r平方值,而不是从对预测值观察到的回归中获得r平方值;以及
“ ...只需报告R 2和RMSE或类似的统计数据,例如测试集预测的标准误差,读者就更有可能理解。
题库