"顾名思义,两步聚类按照两个步骤完成聚类。首先,通过构建和修改聚类特征树(Cluster Feature Tree)对记录进行初步归类;然后,对这些初步分类的结果再次进行聚类,由于此时的预聚类的数量要远远小于原始数据的数量,在这一阶段使用传统的聚类方法就可以处理了。
由于两步聚类在每一个步骤中都会计算判断指标AIC或者BIC的值,通过判定AIC或者BIC的大小和类别之间最短距离的变化情况,两步聚类能够提供最优的类别数。这为研究人员节省了大量的时间来检验多少个类别数量是合适的。而在以往,这步工作往往缺乏合适的检验标准,往往只能依靠研究人员的经验和关键指标在不同类别上的显著性检验来确定。",摘自黄国安博客。
如lz所说,spss中可以直接做two-step聚类,sas中按照其原理可以解决同样问题。下面是两篇参考文献 http://www2.sas.com/proceedings/forum2008/320-2008.pdf,题为《TWO-STAGE VARIABLE CLUSTERING FOR LARGE DATA SETS》 http://www.nesug.org/Proceedings/nesug97/infviz/pratter.pdf,题为《Clustering for Market Segmentation》
市场分割二阶段分类比较多,第二篇文献具有代表性。