全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2344 4
2014-11-15
悬赏 2 个论坛币 已解决
想用R做聚类分析,数据里有二元变量,序数变量,数值连续变量。看各种范例都是连续变量在做,我数据二元变量居多,可以用kmeans()做吗?或者需要数据预处理?谢谢!



最佳答案

suhui0723 查看完整内容

我以前做凝聚聚类的时候,二元数据也一起扔进去算相似性矩阵的, 因为算相似性矩阵的时候不同的变量都要归一化, 我不知道我这样做行不行
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-15 12:16:06
我以前做凝聚聚类的时候,二元数据也一起扔进去算相似性矩阵的,
因为算相似性矩阵的时候不同的变量都要归一化,
我不知道我这样做行不行
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-15 15:27:12
聚类分析都是针对连续变量,没有二元变量聚类的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-15 16:35:38
我问过一个R博客的博主,他提示可以在连续变量基础上,加二值变量。
我搜出国外网站上类似问题,说Gower distance is a good metric for datasets with mixed variables.
有人知道怎么搞吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-16 04:43:58
See here on page 7:

http://www.statisticalinnovations.com/products/twostep.pdf
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群