全部版块 我的主页
论坛 世界经济与国际贸易 八区 世界经济与国际贸易
957 4
2024-07-01
下载了棉花进出口的数据,用贸易值除以数量后,单价特别多异常值,请问怎么处理,数据太多了,一个个找资料矫正特别麻烦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-7-9 04:58:31
从领域知识看,有时,看似异常的值可能是有效数据点,如棉花价格可能因干旱或贸易禁运而飙升,考虑这些因素应该决定是否将此类数据视为异常值。也可以从异常值等统计学的方法考虑,参考以下步骤,
1. 识别异常值的统计方法
如果数据呈正态分布,距离平均值超过三个标准差的值通常被视为异常值。
通过定义样本值的限值来识别异常值,这些限值是低于第一四分位数或高于第三四分位数的 IQR 因子 k。对中等异常值,k通常设置为 1.5,对极端异常值,k 设置为 3。
2. 数据可视化
可直观地识别箱线图晶须之外的点作为异常值。散点图适用于想要查看价格数据相对于时间等其他变量的分布时。
3. 过滤异常值
根据具体情况,可决定直接删除被识别为异常值的数据点,尤其是当数据输入错误或来自不可靠的来源而导致的时候。
过滤掉没有意义的值,如与该时期的一般市场趋势相比,棉花价格极高或极低。
4. 数据转换
应用对数、平方根甚至Box-Cox变换等变换有时可以规范数据,易于识别和处理异常值。
5. 稳健缩放
删除中位数并根据分位数范围缩放数据缩放特征(如 IQR)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-7-31 11:26:08
att006 发表于 2024-7-9 04:58
从领域知识看,有时,看似异常的值可能是有效数据点,如棉花价格可能因干旱或贸易禁运而飙升,考虑这些因素 ...
好的,谢谢大神
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群