全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
515 6
2025-02-16
大家好~我是正在准备毕业论文的经管专业学生,研究方向为数字经济,目前遇到一个棘手的问题,想请教各位大佬!  

我的数据涉及河北省11个地级市(2011-2022年)的数据,这一项指标“信息传输、计算机服务和软件业从业人员”。在数据清洗阶段,发现石家庄市近几年的数值远高于其他地级市。虽然已用IQR法(1.5倍)、箱线图和Z-score(阈值>3)检验,结果均显示为异常值,但反复核对河北统计年鉴后确认数据无误。  
目前的困惑是:  
1. 若数据真实无误,这种情况下是否仍需剔除或调整? 应该用何种方法?
2. 是否存在其他方法(如经济背景分析)能合理解释这种“异常”?  
3. 是否有文献或案例支持类似情况的处理方式?  

作为学术小白,深知自己经验不足,恳请各位前辈、大佬不吝赐教!无论是统计方法、经济视角的建议,还是相关文献推荐,晚辈都感激不尽!🙏  
真心求教,感谢每一位点进来的朋友! 😊 1049e014128307d7243b41091f7c12f.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2025-2-17 16:10:26
这取决于你研究什么问题。但一般这种情况不需要剔除,你数据量不大。石家庄IT业人口激增可能是由于政策激励;该行业工资增加;IT公司数量增加等原因造成。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-2-17 17:16:54
广财金融学院 发表于 2025-2-17 16:10
这取决于你研究什么问题。但一般这种情况不需要剔除,你数据量不大。石家庄IT业人口激增可能是由于政策激励 ...
谢谢! 麻烦您再帮帮我,我问的有点多,麻烦您了,谢谢。       河北省数字经济对xx的影响研究,我构建的数字经济发展水平是参考的赵涛的指标体系。那我将它保留,异常值处理需不需要对数变换或者缩尾,还是这两者都要,如果两者都要的话顺序是什么。因为我后面还得把一开始的指标计算成(每百人互联网宽带接入用户数_户、计算机软件和软件业从业人员占比、人均电信业务收入_元、每百人移动电话用户数_户)这些指标。那我异常值处理是在这些指标计算前完成还是在计算后完成。后面还要进行 熵值法测算。  您帮我看看,谢谢您,我实在是不知道该怎么办了,谢谢您。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-2-17 17:40:20
汤圆。 发表于 2025-2-17 17:16
谢谢! 麻烦您再帮帮我,我问的有点多,麻烦您了,谢谢。       河北省数字经济对xx的影响研究,我构建的 ...
"我后面还得把一开始的指标计算成(每百人互联网宽带接入用户数_户、计算机软件和软件业从业人员占比、人均电信业务收入_元、每百人移动电话用户数_户)这些指标"
--------这些指标可以用z-score来去量钢化。异常值处理可以先不做,如果实证结果不好再考虑。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-2-17 18:18:31
广财金融学院 发表于 2025-2-17 17:40
"我后面还得把一开始的指标计算成(每百人互联网宽带接入用户数_户、计算机软件和软件业从业人员占比、人 ...
谢谢您,我尝试一下,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-2-17 19:06:24
广财金融学院 发表于 2025-2-17 17:40
"我后面还得把一开始的指标计算成(每百人互联网宽带接入用户数_户、计算机软件和软件业从业人员占比、人 ...
您再帮我解答解答,谢谢,真的麻烦您了。Z-score去量钢化后,新生成的变量的数据好多都是负值,接下来不是还要进行熵值法吗,熵值法不是需要归一化吗,可是归一化不是需要非负数据吗,我了解到可以对 Z-score 标准化后的数据进行平移处理或者使用Min-Max 归一化将数据缩放到 [0, 1] 范围内。这两种方法对最后熵值法的权重影响大吗。谢谢您,谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群