全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
2049 2
2015-08-20
网络平台上采集了很多数据,其中某一些指标上的数据缺失很多,都是0.但这些指标部分数据却很大,所以就形成了两个极端。
如图1.   QQ图片20150820170837.png

经过SPSS的标准化处理后,由于极端值的存在,很多缺失数据的Z分数都出来,而且相同。(就是被少部分的大数据给影响的),如图2:
QQ图片20150820170837.png ,对于这些数据是否就是删除即可?请教各位。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-8-20 19:15:41
可以考虑将此类指标进行类别化(如大于a将其赋值为1,小于a赋值为0),将其设置为类别变量。然后以虚拟变量的形式纳入模型。祝好运。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-21 11:28:18
大神说的高大上啊。。。(1)其他数据完整的都是连续性变量,这些如果处理为类别变量会影响嘛? (2)缺省数据很多,极端值可能较少。是否可以考虑删除这一个指标?(其实不想删的,但是0太多)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群