全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
6706 5
2007-09-06

这个教训主要是关于clustering 的

CLEM 11中有3个cluster的工具,two stage(实际上是BIRCH算法), K-means, SOM
其中,只有two stage提供了选项可以对变量进行standardize,给人造成错觉k-means和som不提供这个功能
需要用户自己来standardize,实际上在查阅了CLEM 11附带的algorithm guide之后,我发现,K-means和SOM默认进行standardize。

但是接下来的问题是two-stage的standardize实际上是计算z-score就是方差为1,均知为零。而k-means和som的是range算法,就是最小值最大值那个。当然我们可以自己用derive node算z-score,可是由于k-means和som是默认standardize,而且似乎没有办法屏蔽掉这个过程(用CLEM 提供的script?我不知道,没试过),那么好像就算我辛辛苦苦算了z-score出来,最后也会被转变成range,,,

SPSS家的clementine感觉还是不如SAS EM严谨

不过CLEM 11比CLEM 10还是好了很多,如今data audit node提供了更强大的missing data imputation功能,终于有了C&RT imputation这一项。还有optimal binning,似乎也很有用。CLEM这版的特色似乎在于regression这边,增加了很多regression的工具,logit可以支持大于等于3个类的目标变量了,原来只有2个。Descriminant analysis以及general regression model的加入都很实用。

还有一个特色是decision list,这应该是一个给予association rules mining的应用,还没用太多,不过似乎不错

相比SAS EM, Clementine系列只能说还差一点,C&RT imputation这种功能在sas em 4.2版就有了。SAS EM在SAS Base的支持下,想要实现descriminant analysis以及其他regression方法也并不是难的事情。

以前Clementine比sas em强的地方在于有很多association rules mining的工具。而在sas em 4.2中,这方面很薄弱。不过似乎在SAM EM 5里面有了加强

就这些,斑竹是不是能发点钱啊,俺装的sas em 4.2过期了,想去sas版看破解的方法,,,,,,

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2007-9-11 20:07:00
感谢原创!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-3-27 14:06:00

楼猪是高人

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-27 00:01:45
楼主是牛人
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-27 00:02:21
不过EM用起来没有cle舒服
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-6-12 14:55:26
嗯,很受益。。。。。。。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群