全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
44456 40
2007-04-05
采用聚类分析时,如何确定聚类的数目?这个聚类数目的确定有一定的方法吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2007-4-5 16:47:00

最常见的聚类方法是系统聚类,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;再按前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;如此继续下去,每次重复都减少一类,直到最后所有样品(或变量)归为一类为止。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-5 16:53:00

在用系统聚类法进行聚类的过程中,涉及到两个类之间的距离(或相似系数)问题。当每类含有两个以上的样品时,不同定义类与类之间距离的方法就产生了不同的系统聚类方法,它们包括:最短距离法、最长距离法、中间距离法、重心法、类平均法以及离差平方和法

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-5 16:59:00
聚类数目的真正确定在于你研究的问题是什么,以及你事先有无一个大致的判断标准。在你用spss运行完你的样品数据得出聚类谱系图后,你可以根据你所研究问题的需要来划分样品的类别,不同的方法,甚至相同方法(比如系统聚类)因为运用了不同的距离公式,都有可能得出不同的分类结论。无所谓哪种是最好的方法,关键是看哪种方法最后得出的结论能让你满意。另外,你不可能得出让你完全满意的结论,你在写报告时可以就那些不满意的地方作出解释,说明大概是因为什么原因(比如收集数据的误差、所选项目与所研究问题之间的联系不够密切等等),不要试图掩饰或置之不理。最后,要强调的一点是,如果你是第一次用spss做聚类,最好找一些现成的例子熟悉下基本操作,等把每一步骤的操作都弄熟悉后再去输入你的数据用spss运行。最好用不同方法都试试,而且每一种方法反复做几遍,这样可以避免因为操作失误而得到错误的结论。这是我上学期学多元统计学时的心得,可能不是很好,会让专家笑话,但是还是写出来,希望对刚学习的人有用。

[此贴子已经被作者于2007-4-5 17:08:52编辑过]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-6 01:22:00
谢谢,楼上这位,解释得很好。还有做完以后用方差分析检验下。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-4-6 23:00:00
Analyze---classify----hierarchical cluster后,关键是要将dendrogram勾上,运行后的结果图就可以看出分几类较为合理了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群