全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
6247 5
2021-10-18
城市面板数据存在缺失值,请教一下大家,有没有合适的数据补全方法。
之前用stata线性插值,补全效果不太好,存在负值。
寻求更好、更合理的补全方法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-10-18 12:07:06
1. 要判断为什么存在缺失值
2. 存在缺失值可以先删除而不是补上
3. 插值法有很多补充的方式,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-10-18 14:53:51
wdlbcj 发表于 2021-10-18 12:07
1. 要判断为什么存在缺失值
2. 存在缺失值可以先删除而不是补上
3. 插值法有很多补充的方式,
不好意思点错了,以为是回复的按钮
能删的已经都删掉了
面板数据都是时间序列的城市指标
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-10-18 16:53:58
qq406642902 发表于 2021-10-18 14:53
不好意思点错了,以为是回复的按钮
能删的已经都删掉了
面板数据都是时间序列的城市指标
你好,这种基本删除就可以了

不想删除的话,既然是一个时间序列的数据 那么可以用上下两年的平均值来做一个代替

或者是用同地区其他观测值的平均值来做一个代替

但这些做法也基本都是稳健性检验的做法,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-12 22:07:13
礼貌请教一下,是先删除缺失值还是先设定面板数据?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-7-16 13:36:42
处理面板数据中的缺失值是一个常见的统计问题,尤其在城市经济或社会指标分析中。如果线性插值导致不合理的结果(如产生负值),可以尝试以下几种更加复杂但可能更合适的方法:

1. **多变量预测模型**:利用其它非缺失的自变量对缺失的目标变量进行预测。例如,你可以使用多元回归、随机森林或者支持向量机等机器学习方法来预测缺失值。

2. **多重插补(Multiple Imputation)**:这是一种统计学上的数据处理方法,通过多次生成可能的数据集填补缺失值,并结合这些数据集的分析结果以减少估计偏差。在Stata中,可以使用`mi impute chained`命令来进行多重插补。

3. **时间序列预测**:如果变量随时间有明显的趋势或季节性变化,可以尝试使用ARIMA、状态空间模型等时间序列方法来预测缺失值。

4. **基于相似性的填补**:例如k近邻算法(KNN),找到与目标城市在其它指标上最相似的几个城市,并利用这些城市的相应数据填充缺失值。这种方法尤其适用于当面板数据中各观察点在结构上具有相似性时。

5. **混合方法**:将以上几种方法结合使用,比如先用时间序列预测进行初步填补,再用多变量模型进一步校正。

选择哪种补全策略取决于你的具体研究问题、数据的特性以及你对结果偏倚容忍度的理解。在处理缺失值前,理解和记录缺失值产生的原因(随机缺失、完全随机缺失或非随机缺失)也很重要,因为不同的缺失机制可能需要采用不同方法来解决。

在Stata中实现这些方法通常涉及使用特定命令或编写自己的程序代码,并利用Stata丰富的模块和函数库。如果线性插值效果不佳,尝试上述方法可能会得到更合理的填补结果。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群