线性回归中的遗漏变量
线性回归的完整性的重要性是一个经常讨论的问题。通过省略相关变量,系数可能不一致。
但是为什么在地球上呢?
假设形式为线性完整模型:
z = a + bx + cy + ε 。
其中?被认为是相关的,X和?是独立的,ε是误差项。
现在我们放下y以检查哪些术语受到影响。通过减小一维,我们将线性超平面转换为线性线。在初始三维空间中,此二维线(不完整模型)位于y的中心。更确切地说,在?处,它是y的平均值。如果省略了y,这将导致对“ a ”和ε的校正。
从初始估计模型(没有ε)开始,我们得到x = 0和y = 0的 “ a ” 。为了获得新的截距(α),必须将“ a ”从y = 0扩展到y =?,其中:
α = a +c?。
对于残差ε,y的贡献(关于解释力)消失。这导致误差项(u)增加:
u = ε + c(y-?)。
因此,不完整的模型
z = α + bx + u
由组成
z = a +c?+ bx + ε + c(y-?)
消除括号会导致初始模型z。
假设x和 y之间存在相关性:
对于初始(完整)模型,这与它的一致性无关。 但是,多重共线性会导致方差膨胀。但是对于不完整的模型,自变量x和残差u 之间将存在相关性,最终可能会不一致。
因此,如果模型中被忽略的变量和包含的变量之间没有相关性

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!