全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
14755 7
2012-12-07
各位大侠:
      小女子第一次发帖,想请教一个关于分类资料的聚类问题。举个例子:我的数据变量有病例所在的地区、发病季节、性别、职业、病例症状体征、病原检测结果(阴性、阳性)等,这些协变量都是分类的,我想要依靠这些变量将病例按年龄大小有序的聚类,该怎么弄啊?我看到的资料都是对定量资料做聚类,没找到对分类资料做聚类的例子。各位大侠行行好,指点一下吧?给个SAS程序或者指点一个方向,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-12-7 17:48:19
分类变量聚类,其实质也要计算两个观测之间的“距离”~
通常采用jaccard系数来计算相似度作为距离:
比如 i观测:2  3  A  B   5
        j观测:1  3  C  B   5
之间的距离可定义为:sim(ij)=(上下不同的个数/总的变量数) =2/5
即 i,j之间的距离为2/5;
将每个观测与其他观测的距离分别算出来,组成一个距离矩阵(这步比较麻烦)。
最后可以用SAS中的分层聚类方法;
proc cluster data=data(type=distance) method=;
不过我提供的这方法对大数据肯定实现不了了,距离矩阵肯定算不来。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-8 00:20:45
ziyenano 发表于 2012-12-7 17:48
分类变量聚类,其实质也要计算两个观测之间的“距离”~
通常采用jaccard系数来计算相似度作为距离:
比如 ...
非常感谢您的回复,我的数据有十几万条,能行吗?那个距离我在书上看到过的,叫“配合距离”,就是您说的那个原理,看起来很简单,不过计算过程我就不晓得该怎么编程实现了,您说的“将每个观测与其他观测的距离分别算出来,组成一个距离矩阵(这步比较麻烦)。”我应该怎么弄啊?您能不能给个程序参考下,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-8 00:23:17
楼上的ziyeno,不好意思,我给你的回复发到楼下去了,新手还没熟悉操作流程,忘见谅
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-8 00:45:34
楼主好牛啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-8 10:10:55
十万*十万是个多大的矩阵,楼主好好想想,cluster每步都会计算上步合并后类之间的距离矩阵
OMG,多大的计算量,虽然只有十几万数据,不过单独用这个方法不可行,还要做些处理,结合其他算法的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群