全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
10149 10
2014-12-19
      数据分析心得——聚类分析时的极端值处理

       在对农户问卷数据做聚类分析时,先考察数据的分布,一般情况下很多变量均是正偏态分布,在不想去除极端值的情况下(去除极端值会造成本不多的样本再度流失)可考虑在系统聚类时用横向标准化的方法并用中位数进行聚类。这样既不损失样本,又能在不受极端值影响下考察数据的集中趋势,不至于得到不好甚至错误的分析结果(因为均值受极端值影响)。
      PS:若连续变量不存在大量的0的情况下,可考虑对原始数据进行对数变换解决其正偏态分布的问题,如有大量0存在时,就不能取对数了,因为ln(0)无意义。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-19 21:27:57
学习了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-20 12:03:46
tstone318 发表于 2014-12-19 21:27
学习了
呵呵,相互学习。昨天下午突然想到,若正偏态数据中有大量0存在,也可以用对数变换ln(x+1),这样就能消除ln(0)不存在的影响。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-8 13:23:33
xddlovejiao1314 发表于 2014-12-20 12:03
呵呵,相互学习。昨天下午突然想到,若正偏态数据中有大量0存在,也可以用对数变换ln(x+1),这样就能消除 ...
楼主我也是用农户数据,想根据农户的林地面积将165个样本数据进行聚类分析,但是一直出不来结果,楼主说的这个方法具体怎么操作呢,求具体指点一下,谢谢 !!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-8 22:02:13
我是痘痘绒 发表于 2015-1-8 13:23
楼主我也是用农户数据,想根据农户的林地面积将165个样本数据进行聚类分析,但是一直出不来结果,楼主说的 ...
这个说来话长,建议你在网上下载一本张文彤老师主编的《IBM SPSS数据分析与挖掘实战案例精粹》这本书的电子版。看看里面的案例14,有详细的介绍和操作。我也是受此启发才写的这个心得。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-8 22:07:50
xddlovejiao1314 发表于 2015-1-8 22:02
这个说来话长,建议你在网上下载一本张文彤老师主编的《IBM SPSS数据分析与挖掘实战案例精粹》这本书的电 ...
好的  谢谢 我现在出来树状图了  但是都是断开的 还是没看懂应该怎么分类、分几类。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群