全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
901 3
2024-12-11
各位老师同学,目前我碰到一个问题,想请教大家:我的回归分析中,区县层面的人口密度是关键的解释变量,区县面积是其中的一个控制变量。做回归时,把区县的人口密度和面积都取了自然对数,两个对数转换后的变量都基本上呈现的是正态分布。
我需要在回归之前,先把 “区县人口总量“ 和 “区县面积” 的极端值 去掉,再去掉区县人口密度的极端值,然后再回归吗?对这些极端值,并不是数据错误,而是这些区县的面积或人口就是那么多。而且我关注的是人口密度,再加之我对人口密度和面积取对数之后,它们呈正态分布,其实也让极端值的影响力度降低了。我还有必要先去掉 人口总量、面积的极端值么?谢谢各位老师和同学!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-12-11 15:15:51
处理回归分析中的异常值是一个重要的步骤,因为异常值可能对模型结果产生重大影响。在您的情况下,考虑到您已经对人口密度和区县面积进行了自然对数转换,并且这两个变量呈现出正态分布,这表明您已经在一定程度上减轻了极端值的影响。

然而,是否需要进一步处理原始的“区县人口总量”和“区县面积”的异常值,取决于这些异常值的程度以及它们在数据集中的比例。如果这些极端值仅是少数情况,并且不会严重扭曲您的回归结果,那么您可以考虑保留它们,因为正如您所指出的,这些高密度或大区域的地区确实存在。

但是,如果您担心这些异常值可能会影响模型参数估计和显著性测试的有效性,可以采用以下几种方法处理:

1. **Winsorizing(温索里克法)**:将极端值替换为一个阈值内的最大或最小值。例如,您可以选择95%的百分位数作为上限。

2. **使用Robust Regression(稳健回归)技术**:这类模型对异常值不那么敏感,如Huber回归、M-估计等方法。

3. **分层处理**:如果可能的话,将数据分为不同的子组进行分析。例如,您可以根据人口密度的中位数将区县分为“高”和“低”两组,并分别建模。

4. **诊断性检查**:使用残差图、杠杆值和Cook’s D等统计量来识别哪些观测值对模型结果有异常影响。

5. **敏感性分析**:尝试在包含和排除极端值的情况下运行回归,观察结果是否有显著变化。如果差异不大,则可以保持原始数据集不变。

最后,在进行任何数据剔除或处理之前,请务必记录您的决策过程和理由,并在报告中清晰地说明这一点,以提高研究的透明度和可复制性。这样做不仅有助于其他研究人员理解您的分析方法,也有助于您自己在未来回顾时能够了解当时的选择依据。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-12-11 16:27:13
赵安豆 发表于 2024-12-11 15:15
处理回归分析中的异常值是一个重要的步骤,因为异常值可能对模型结果产生重大影响。在您的情况下,考虑到您 ...
非常感谢这么详细的回复!去掉人口密度的极端值再取对数做的回归,和直接用人口密度取对数后再做回归的结果是基本一致的。因为我的关注点是人口密度,我觉得没有必要:先把区县人口总量和土地面积的极端值去掉、再进一步去掉人口密度的极端值、然后再做回归。这种处理方法从逻辑上似乎也说不通,虽然人口密度是由人口总量和土地面积算出来的,但是人口密度本身是可以作为一个有意义而且可以独立使用的变量去分析问题的。就如同算人均GPD一样,你可以把人均GDP的极端值去掉,但好像没有必要 先把GDP总值和人口总量的极端值去掉、再去掉人均GDP的极端值吧?再次感谢您的回复!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-12-24 17:21:04
从研究目的出发的话,个人认为去除极端值主要是出于研究结论的普适性出发,人口那么少导致的极端值非异常值而是真实值这一点是认同,但是人口这么少是否也意味着其研究结论不具备一定的普适性呢?即考虑该极端值的影响对回归结论而言实际上是负作用,个人认为这才是为什么需要剔除极端值的影响(缩尾处理)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群