全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1381 5
2020-11-05
1.是不是我先不管我的异常值(离群点),直接先做回归,最后确定回归模型后再来看是否有强影响点,再来处理异常的观测值……
2.我现在就是卡在异常值和回归这里了,不知道先处理哪一个? 回归之前不应该进行数据预处理,把异常值处理了吗?但是也有边回归边处理的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-11-6 03:02:32
所谓异常值,大概包括NA、NaN、离群点、极值这些吧。NA、NaN一般是需要预处理的,但是离群点我们在回归并检验之前其实也不知道具体是哪个或哪些样本,那么我们如何处理才算合理呢?而数据是否异常,不能从离散程度判断,而是从现实合理性判断。如果现实是合理的存在,那为啥要处理掉呢?
另外当样本量够大时,离群点影响也会很小,只要回归方程和变量系数通过显著性检验就可以。
换个角度,回归本身只是找出大致的关系表达,是存在误差的,这其实也是过拟合和欠拟合的平衡问题。
回归之前做方差齐性、共线性检验,回归过程中做变量筛选,就可以了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-11-7 12:22:03
llb_321 发表于 2020-11-6 03:02
所谓异常值,大概包括NA、NaN、离群点、极值这些吧。NA、NaN一般是需要预处理的,但是离群点我们在回归并检 ...
lib_321老师说的好
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-11-7 21:35:16
先处理异常值,再回归
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-11-7 22:02:29
llb_321 发表于 2020-11-6 03:02
所谓异常值,大概包括NA、NaN、离群点、极值这些吧。NA、NaN一般是需要预处理的,但是离群点我们在回归并检 ...
谢谢你 很有用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-11-7 22:02:41
nuomin 发表于 2020-11-7 21:35
先处理异常值,再回归
好的 谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群