聚类分析中变量问题

gerxyuan

2389

收藏 2014-11-15

悬赏 2 个论坛币已解决

想用R做聚类分析，数据里有二元变量，序数变量，数值连续变量。看各种范例都是连续变量在做，我数据二元变量居多，可以用kmeans（）做吗？或者需要数据预处理？谢谢！

最佳答案

suhui0723 查看完整内容

我以前做凝聚聚类的时候，二元数据也一起扔进去算相似性矩阵的，因为算相似性矩阵的时候不同的变量都要归一化，我不知道我这样做行不行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

suhui0723

2014-11-15 12:16:06

我以前做凝聚聚类的时候，二元数据也一起扔进去算相似性矩阵的，
因为算相似性矩阵的时候不同的变量都要归一化，
我不知道我这样做行不行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

李会超

2014-11-15 15:27:12

聚类分析都是针对连续变量，没有二元变量聚类的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

gerxyuan

2014-11-15 16:35:38

我问过一个R博客的博主，他提示可以在连续变量基础上，加二值变量。
我搜出国外网站上类似问题，说Gower distance is a good metric for datasets with mixed variables.
有人知道怎么搞吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

calsunny

2014-11-16 04:43:58

See here on page 7:

http://www.statisticalinnovations.com/products/twostep.pdf

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群