我们有一门课,数据挖掘,老师给的作业是:
用K均值法、K中心点法、层次聚类算法三个算法对下面的150个样本集进行聚类分析,并且分别求出各算法的以下五个参数:
1、误差平方和:SSE;
2、Rand 指数: R = ( a + d) /M
3、Jaccard 系数:J = a / ( a + b + c)
4、Adjusted Rand index 参数:RI =2*( ad - bc) / [( a + b) ( b + d) + ( a + c) ( c + d)]
5、时间。 这个很简单,就是运行时间。嘿嘿
我自己由于上周才开始接触SAS,老师和其他同学都是用matlab做,但我想用SAS做,可是,遭遇的问题困惑太多了,太郁闷了,困惑描述如下:
1、我压根不知道 误差平方和 SSE 在SAS中是哪个结果参数,网上找了很多都没找到,只大概知道是在PROC FASTCLUS过程中产生,还知道层次聚类法的method=word时就是采用误差平方和最小的策略进行聚类的,不知道对不对,希望各位大师加以点播!!
2、上面的2、3、4个参数应该可以自己手算的,但是样本数比较多,很麻烦,所以非常困惑SAS有没有哪个相应的参数就是给出的结果但我不知道是哪个。。。我只知道SAS中的 Total STD Within STD R-Square RSQ/(1-RSQ)等几个都不是。。
3、我自己写了算法,求教大师指导,我的算法如下:
1)k-means的:
proc cluster data=iris method=median outtree=irisdata standard ccc; var x1-x5; id id; run;
proc tree data=irisdata horizontal; run;
2)K中心点,我不知道是用哪个函数;
3)层次聚类:我仅仅是把第一个中的median改成word了,不知道对不对;
proc cluster data=iris method=word outtree=irisdata standard ccc; var x1-x5; id id; run;
proc tree data=irisdata horizontal; run;
最后补充汇总我的困惑: 1、误差平方和SSE 怎么用SAS求得。 2、上面的 Rand 指数 Jaccard 系数 Adjusted Rand index 参数 三个参数怎么用SAS调用函数求得?另外用tree画出谱系图时,150个样本太多了,怎么处理才能清楚的看到每个样本分类呢? 3,希望有好心人能给我一个可以正确运行的三个算法代码。我已经研究了两天,还是不明白。非常感激!在线等!!
序号 x1 x2 x3 x4 x5 (x5是老师给出的类别)
1 5.1 3.5 1.4 0.2 1
2 4.9 3.0 1.4 0.2 1
3 4.7 3.2 1.3 0.2 1
4 4.6 3.1 1.5 0.2 1
5 5.0 3.6 1.4 0.2 1
6 5.4 3.9 1.7 0.4 1
7 4.6 3.4 1.4 0.3 1
8 5.0 3.4 1.5 0.2 1
9 4.4 2.9 1.4 0.2 1
10 4.9 3.1 1.5 0.1 1
11 5.4 3.7 1.5 0.2 1
12 4.8 3.4 1.6 0.2 1
13 4.8 3.0 1.4 0.1 1
14 4.3 3.0 1.1 0.1 1
15 5.8 4.0 1.2 0.2 1
16 5.7 4.4 1.5 0.4 1
17 5.4 3.9 1.3 0.4 1
18 5.1 3.5 1.4 0.3 1
19 5.7 3.8 1.7 0.3 1
20 5.1 3.8 1.5 0.3 1
21 5.4 3.4 1.7 0.2 1
22 5.1 3.7 1.5 0.4 1
23 4.6 3.6 1.0 0.2 1
24 5.1 3.3 1.7 0.5 1
25 4.8 3.4 1.9 0.2 1
26 5.0 3.0 1.6 0.2 1
27 5.0 3.4 1.6 0.4 1
28 5.2 3.5 1.5 0.2 1
29 5.2 3.4 1.4 0.2 1
30 4.7 3.2 1.6 0.2 1
31 4.8 3.1 1.6 0.2 1
32 5.4 3.4 1.5 0.4 1
33 5.2 4.1 1.5 0.1 1
34 5.5 4.2 1.4 0.2 1
35 4.9 3.1 1.5 0.2 1
36 5.0 3.2 1.2 0.2 1
37 5.5 3.5 1.3 0.2 1
38 4.9 3.6 1.4 0.1 1
39 4.4 3.0 1.3 0.2 1
40 5.1 3.4 1.5 0.2 1
41 5.0 3.5 1.3 0.3 1
42 4.5 2.3 1.3 0.3 1
43 4.4 3.2 1.3 0.2 1
44 5.0 3.5 1.6 0.6 1
45 5.1 3.8 1.9 0.4 1
46 4.8 3.0 1.4 0.3 1
47 5.1 3.8 1.6 0.2 1
48 4.6 3.2 1.4 0.2 1
49 5.3 3.7 1.5 0.2 1
50 5.0 3.3 1.4 0.2 1
51 7.0 3.2 4.7 1.4 2
52 6.4 3.2 4.5 1.5 2
53 6.9 3.1 4.9 1.5 2
54 5.5 2.3 4.0 1.3 2
55 6.5 2.8 4.6 1.5 2
56 5.7 2.8 4.5 1.3 2
57 6.3 3.3 4.7 1.6 2
58 4.9 2.4 3.3 1.0 2
59 6.6 2.9 4.6 1.3 2
60 5.2 2.7 3.9 1.4 2
61 5.0 2.0 3.5 1.0 2
62 5.9 3.0 4.2 1.5 2
63 6.0 2.2 4.0 1.0 2
64 6.1 2.9 4.7 1.4 2
65 5.6 2.9 3.6 1.3 2
66 6.7 3.1 4.4 1.4 2
67 5.6 3.0 4.5 1.5 2
68 5.8 2.7 4.1 1.0 2
69 6.2 2.2 4.5 1.5 2
70 5.6 2.5 3.9 1.1 2
71 5.9 3.2 4.8 1.8 2
72 6.1 2.8 4.0 1.3 2
73 6.3 2.5 4.9 1.5 2
74 6.1 2.8 4.7 1.2 2
75 6.4 2.9 4.3 1.3 2
76 6.6 3.0 4.4 1.4 2
77 6.8 2.8 4.8 1.4 2
78 6.7 3.0 5.0 1.7 2
79 6.0 2.9 4.5 1.5 2
80 5.7 2.6 3.5 1.0 2
81 5.5 2.4 3.8 1.1 2
82 5.5 2.4 3.7 1.0 2
83 5.8 2.7 3.9 1.2 2
84 6.0 2.7 5.1 1.6 2
85 5.4 3.0 4.5 1.5 2
86 6.0 3.4 4.5 1.6 2
87 6.7 3.1 4.7 1.5 2
88 6.3 2.3 4.4 1.3 2
89 5.6 3.0 4.1 1.3 2
90 5.5 2.5 4.0 1.3 2
91 5.5 2.6 4.4 1.2 2
92 6.1 3.0 4.6 1.4 2
93 5.8 2.6 4.0 1.2 2
94 5.0 2.3 3.3 1.0 2
95 5.6 2.7 4.2 1.3 2
96 5.7 3.0 4.2 1.2 2
97 5.7 2.9 4.2 1.3 2
98 6.2 2.9 4.3 1.3 2
99 5.1 2.5 3.0 1.1 2
100 5.7 2.8 4.1 1.3 2
101 6.3 3.3 6.0 2.5 3
102 5.8 2.7 5.1 1.9 3
103 7.1 3.0 5.9 2.1 3
104 6.3 2.9 5.6 1.8 3
105 6.5 3.0 5.8 2.2 3
106 7.6 3.0 6.6 2.1 3
107 4.9 2.5 4.5 1.7 3
108 7.3 2.9 6.3 1.8 3
109 6.7 2.5 5.8 1.8 3
110 7.2 3.6 6.1 2.5 3
111 6.5 3.2 5.1 2.0 3
112 6.4 2.7 5.3 1.9 3
113 6.8 3.0 5.5 2.1 3
114 5.7 2.5 5.0 2.0 3
115 5.8 2.8 5.1 2.4 3
116 6.4 3.2 5.3 2.3 3
117 6.5 3.0 5.5 1.8 3
118 7.7 3.8 6.7 2.2 3
119 7.7 2.6 6.9 2.3 3
120 6.0 2.2 5.0 1.5 3
121 6.9 3.2 5.7 2.3 3
122 5.6 2.8 4.9 2.0 3
123 7.7 2.8 6.7 2.0 3
124 6.3 2.7 4.9 1.8 3
125 6.7 3.3 5.7 2.1 3
126 7.2 3.2 6.0 1.8 3
127 6.2 2.8 4.8 1.8 3
128 6.1 3.0 4.9 1.8 3
129 6.4 2.8 5.6 2.1 3
130 7.2 3.0 5.8 1.6 3
131 7.4 2.8 6.1 1.9 3
132 7.9 3.8 6.4 2.0 3
133 6.4 2.8 5.6 2.2 3
134 6.3 2.8 5.1 1.5 3
135 6.1 2.6 5.6 1.4 3
136 7.7 3.0 6.1 2.3 3
137 6.3 3.4 5.6 2.4 3
138 6.4 3.1 5.5 1.8 3
139 6.0 3.0 4.8 1.8 3
140 6.9 3.1 5.4 2.1 3
141 6.7 3.1 5.6 2.4 3
142 6.9 3.1 5.1 2.3 3
143 5.8 2.7 5.1 1.9 3
144 6.8 3.2 5.9 2.3 3
145 6.7 3.3 5.7 2.5 3
146 6.7 3.0 5.2 2.3 3
147 6.3 2.5 5.0 1.9 3
148 6.5 3.0 5.2 2.0 3
149 6.2 3.4 5.4 2.3 3
150 5.9 3.0 5.1 1.8 3
下面是老师给的样本: