在进行多元回归中,不太清楚选择多少解释变量才算是合适。关于选择的数量,心中有几个判断,不知对错,说出来跟大家讨论,请大家指教。
1.如果解释变量太少,但是那些被忽略的解释变量就被归入扰动项中。若这些被忽略的解释变量恰好与已选择的不相关,则直接回归后的估计量无偏,但估计误差增大,有效性降低。但不管怎样,无偏的估计量还是可取的。
2.如果解释变量太多呢?主要的问题似乎是可能存在多重共线性。但是,这个问题似乎不严重。另一个严重的问题,似乎是,当样本量不大的时候,引入太多的解释变量,造成自由度减少。这样对所有解释变量的估计量应当有影响。比如,有20个样本,结果有15个待估计参数,这样估计的结果肯定有影响。但是,怎样的影响机理,搞不懂。
完毕。