在进行描述性统计和实际进行回归分析时,样本量出现差异是很常见的现象。这种差异主要由以下几个原因导致:
1. **缺失值处理**: 在回归分析中,通常采用的是完整案例分析(listwise deletion),意味着只有当一个观测值在所有变量上都有数据时,这个观测值才会被包括在分析中。如果你的数据中有缺失值,那么即使是单个变量的缺失,也会导致整个观测值在回归分析中被排除。因此,即使你的变量在描述性统计中看起来有较多的样本量,但在实际回归时,如果有缺失值,实际用于回归的样本量会大大减少。
2. **模型设定**: 当你在回归模型中加入更多的控制变量时,需要这些变量在同一个观测值上都有数据。如果这些新增加的控制变量有大量的缺失值,那么能够用于回归分析的观测值数量会进一步减少。尤其是当你控制的变量样本量较小,例如你提到的只有6700个样本量的变量,这将大大减小最终参与分析的样本量。
3. **数据集成合性**: 在进行面板数据分析时,可能会受到面板的平衡性(即是否每个个体在所有时间点上都有观测值)的影响。不平衡的面板数据在加入年份固定效应或进行聚类标准误的估计时,可能会因为数据的不完整性导致可用于分析的样本量进一步减少。
4. **数据处理的差异**: 描述性统计可能仅仅考虑了变量本身的可用观测值数量,而没有同时考虑多个变量在进行回归分析时的共同可用观测值数量。而回归分析需要的是在所有指定变量上都有信息的观测值。
综上所述,回归后样本量大幅减少,主要是由于缺失值的处理、模型设定中加入的控制变量缺失值较多、面板数据的不完整性等因素导致的。这提示我们在进行实证分析前,需要对数据进行仔细的处理和检查,尽可能采用适当的方法处理缺失值,以及在模型设定时考虑变量的可用性,从而尽量保留更多的样本量进行分析。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用