这个教训主要是关于clustering 的
CLEM 11中有3个cluster的工具,two stage(实际上是BIRCH算法), K-means, SOM
其中,只有two stage提供了选项可以对变量进行standardize,给人造成错觉k-means和som不提供这个功能
需要用户自己来standardize,实际上在查阅了CLEM 11附带的algorithm guide之后,我发现,K-means和SOM默认进行standardize。
但是接下来的问题是two-stage的standardize实际上是计算z-score就是方差为1,均知为零。而k-means和som的是range算法,就是最小值最大值那个。当然我们可以自己用derive node算z-score,可是由于k-means和som是默认standardize,而且似乎没有办法屏蔽掉这个过程(用CLEM 提供的script?我不知道,没试过),那么好像就算我辛辛苦苦算了z-score出来,最后也会被转变成range,,,
SPSS家的clementine感觉还是不如SAS EM严谨
不过CLEM 11比CLEM 10还是好了很多,如今data audit node提供了更强大的missing data imputation功能,终于有了C&RT imputation这一项。还有optimal binning,似乎也很有用。CLEM这版的特色似乎在于regression这边,增加了很多regression的工具,logit可以支持大于等于3个类的目标变量了,原来只有2个。Descriminant analysis以及general regression model的加入都很实用。
还有一个特色是decision list,这应该是一个给予association rules mining的应用,还没用太多,不过似乎不错
相比SAS EM, Clementine系列只能说还差一点,C&RT imputation这种功能在sas em 4.2版就有了。SAS EM在SAS Base的支持下,想要实现descriminant analysis以及其他regression方法也并不是难的事情。
以前Clementine比sas em强的地方在于有很多association rules mining的工具。而在sas em 4.2中,这方面很薄弱。不过似乎在SAM EM 5里面有了加强
就这些,斑竹是不是能发点钱啊,俺装的sas em 4.2过期了,想去sas版看破解的方法,,,,,,