在进行线性回归分析时,一般情况下我们采用的是包含截距项(常数项)的模型。这种模型假设数据的平均响应值与预测变量无关时等于某个固定的数值(即截距)。这样做的一个重要结果是,残差(实际观测值与模型预测值之间的差异)的样本均值会自动为0,这是因为在最小化平方误差的过程中,包含截距项的模型能够自然地调整到使得残差平均为零。
然而,在过原点回归中,我们强制线性模型通过原点,即假设当所有预测变量都为零时,响应变量也应为零。这意味着模型中不包含截距项。在这样的情况下:
1. **残差的样本均值不等于0**:由于没有截距来调整模型以适应数据的整体水平,过原点回归可能会导致残差的平均值非零。这是因为,如果数据整体上并不真正通过原点(即,当预测变量为0时响应变量的平均值并非严格为0),那么这种偏差就会反映在残差中。
2. **拟合度可能为负**:通常我们使用R^2(决定系数)来评估模型的拟合优度。对于包含截距项的标准线性回归,R^2介于0和1之间。但是,在过原点回归的情况下,由于没有调整均值的能力,残差平方和可能会非常大,甚至可能比总变异(Total Sum of Squares, TSS)还要大。在这种情况下,R^2的计算公式(1 - Residual Sum of Squares / Total Sum of Squares)会得到一个负数。
简而言之,过原点回归省略了截距项,这可能导致残差均值非零以及拟合优度指标为负,这是模型在没有充分自由度来调整以适应数据平均趋势时出现的现象。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用