全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
992 0
2022-10-27

数值型数据的处理方法,也是先观察其分布,即找离群值。离群值的侦测有如下三种方法:

方法一:离群值为过大或过小的值,对数据排序即可发现。

方法二:即平均值法,在平均值±3×标准偏差之内的值可视为正常值。

方法三:四分位法,IQR = Q3 – Q1,Q3代表第75%的值,Q1代表第25%的值。正常值的范围为Q1 – 1.5×IQR ~ Q3 + 1.5×IQR。四分位法的优点在于适用于小数据,故较常用。

找到离群值后,离群值的处理方法有:

方法一:将离群值视为空值。

方法二:天花板/地板法,即如数据小于正常范围最小值,则改为正常范围最小值,可称为地板;如数据大于正常范围最大值,则改为正常范围最大值,可称为天花板,优点在于还是保持最大最小值不变。

方法三:函数校正法,即将离群值做log10(离群值)处理,即压缩数据。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群