全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1648 4
2014-10-06
小弟第一次發文,如有疏漏,請多指教


主題為介紹SAS軟件中下對上的階層式聚類法,為非監督式分類法之一


語法如下:


PROC CLUSTER data=abc METHOD=AVERAGE OUTTREE=TREE ccc pseudo;
VAR x;
copy y;
run;

*輸入資料集、方法採用(據SAS官方所述,在此介紹兩種,Average為UPGMA法,計算距離採正規化後均方根距離;
Centroid為UPGMC法,對觀測值或集群取中位數後計算兩兩成對的歐式距離)

*Outtree為輸出繪製樹形圖所需表格

*CCC為輸出類間群集準則

*Pseudo為輸出偽T與偽F檢定量


proc tree data=tree ncl=a out=result;
run;

輸出樹形圖與表,ncl為指定群集個數,out為輸出統計表

tree18.png
樹形圖如上,觀測值或集群兩兩成對計算距離後,取最短距離之兩觀測值(或集群)進行合併



兩距離相近之觀測值或集群進行連接


合併至只剩一個集群停止


CccPsfAndPsTSqPlot18.png

集群準則圖,判定合併方式之一

圖片1.png

SAS輸出的報表

RSQ為模式線性關係強弱,Semi-Partial RSQ為邊際(marginal)的RSQ

描述RSQ的增量,一般不於過大時選擇分群數目,避免多分一群時大幅增加模式解釋度

偽F統計量描述組間離散度/組內離散度,故該值愈大則合併至該數目愈佳

偽T統計量與CCC值方在探討中,希望熱心人士能予以解答
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-10-6 06:37:17
学习了,保存了。谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-6 07:31:27
繁体字,很难看。看看你的原始数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-6 07:38:23
不好意思,我是台灣人,不習慣用簡體字

原始數據為地理資訊方面的數據

礙於資料保密的關係,恕我無法提供
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-6 09:35:49
这个可以学习一下                                                                        
                                       
                                                     
                                                     
                                             
                                                                 
                                                                                 
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群