数据的分布与很多因素有关。 首先是数据的特征,其次是样本含量。通过变量变换,只是将一些偏离正态分布的数据使其成为正态分布。并非所有的数据通过转换都可以成为正态分布。
要根据数据的特征和类型选取数据变换。若数据是角度资料,或百分比资料(0-1),可以尝试一下平方根反正旋转化。也可以尝试box-cox转化。
有一点可以肯定,若样本含量足够大,是通过变量变换使其正态化。若样本含量过小,则不行。
我个人认为,可以做聚类和判别分析。因为有些判别分析不需要正态分布,如logistic回归判别分析,甚至多元线性的二值判别等(大样本情况下)。聚类分析也相似。主要看结果是否符合实际,能否解释。我的回答不系统,建议系统看一本多元统计的书。
[此贴子已经被作者于2008-10-29 23:58:02编辑过]