县域数据缺失可按补充来源 → 插补估算 → 稳健性验证的顺序处理,在保留原始信息的同时降低偏差。
常见处理路径
场景 |
推荐方法 |
关键操作 |
注意事项 |
某县长期无公开数据 |
扩大统计范围 |
用市或地区均值替代 |
注明替代口径,避免将市级特征强加到县级 |
单指标多年缺失 |
跨源补充 |
查地方公报、论文附录、新闻 |
核对来源一致性,必要时加权平均 |
面板数据少量缺失 |
线性插值/ARIMA填补 |
Stata:ipolate 或 arima |
趋势显著时用ARIMA更优,防止过度平滑 |
缺失比例高且集中 |
多重插补/回归估算 |
用相关指标建模预测 |
需满足同分布假设,做敏感性分析 |
难以获取细项 |
抽样调查 |
问卷/访谈补充软指标 |
样本需具代表性,与统计数据权重一致 |
具体操作建议
先核对来源
交叉比对《中国县域统计年鉴》、地方统计局子站、政府公报、学术论文等,避免单一来源偏差。
保留原始数据
在分析中同时呈现原始数据 + 插补数据,便于评估影响。
做敏感性检验
用不同插补方法或口径重复分析,确认结果稳健。
💡 建议:
县域数据常因公开范围有限而缺失,优先选择数据来源的多样化和插补方法的稳健性,而非单纯追求“完整”。在论文或报告中明确标注数据来源、替代方法及局限性,能提高结论可信度。