全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
16565 10
2017-04-05
请问聚类分析时样本各变量数据量级不同时,需要进行归一化或者标准化处理么?
是直接对数据进行kmeans操作么
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-4-5 17:07:11
不需要,只要是数值型数据就可以,归一化处理可能会影响kmeans的有效性
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-5 17:30:12
我刚才查了查,自己又想了想,我觉得是需要归一化的。计算距离的话,如果不归一化,那数值很小的变量影响就很小(比如求欧氏距离的话,两个样本点P个变量每个变量距离的平均值,那数值很大的占结果比重肯定大)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-5 17:30:46
colinxf 发表于 2017-4-5 17:07
不需要,只要是数值型数据就可以,归一化处理可能会影响kmeans的有效性
抱歉刚才回复位置回复错了。我刚才查了查,自己又想了想,我觉得是需要归一化的。计算距离的话,如果不归一化,那数值很小的变量影响就很小(比如求欧氏距离的话,两个样本点P个变量每个变量距离的平均值,那数值很大的占结果比重肯定大)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-5 20:31:20
xiaowangge 发表于 2017-4-5 17:30
抱歉刚才回复位置回复错了。我刚才查了查,自己又想了想,我觉得是需要归一化的。计算距离的话,如果不归 ...
你说的是对的,理论上,修改度量尺度是对kmeans的有效性是有一定的影响的,所以我觉的这就要根据实际问题去处理了,,你可以比较一下最后的clustering的实际效果
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-5 21:36:26
colinxf 发表于 2017-4-5 20:31
你说的是对的,理论上,修改度量尺度是对kmeans的有效性是有一定的影响的,所以我觉的这就要根据实际问题 ...
恩,好,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群