求助：数据缺失很多，标准化处理还有意义吗

2197

收藏 2015-08-20

网络平台上采集了很多数据，其中某一些指标上的数据缺失很多，都是0.但这些指标部分数据却很大，所以就形成了两个极端。
如图1.

经过SPSS的标准化处理后，由于极端值的存在，很多缺失数据的Z分数都出来，而且相同。（就是被少部分的大数据给影响的），如图2：

，对于这些数据是否就是删除即可？请教各位。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-8-20 19:15:41

可以考虑将此类指标进行类别化（如大于a将其赋值为1，小于a赋值为0），将其设置为类别变量。然后以虚拟变量的形式纳入模型。祝好运。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-21 11:28:18

大神说的高大上啊。。。（1）其他数据完整的都是连续性变量，这些如果处理为类别变量会影响嘛？（2）缺省数据很多，极端值可能较少。是否可以考虑删除这一个指标？（其实不想删的，但是0太多）。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享