现在有一组数据需要进行聚类分析,要先计算出距离矩阵。
我现在需要的距离矩阵需要满足 dij = sqrt(2*(1-cij))
其中dij是距离矩阵中的元素;
cij表示数据集中两个变量间的相关系数,来自于通过数据集不同变量间计算corr 矩阵中的对应元素。
比如 数据集A:
x y z x y z
1 4 5 可以计算得到一个corr矩阵 x 1 * *
3 1 2 ===================> y * 1 *
5 3 8 z * * 1
现在我要计算这个距离矩阵用于proc cluster,但是我不知道这个距离矩阵该怎么算比较好,如果用proc corr + proc iml 算效率会不会很差,因为我要算几百次这样的聚类。
好像proc distance能算这个矩阵,但是我不确定能不能直接用这个距离关系。
本人是初学者,希望各位高手多多帮忙。
谢谢