请假各位大侠:
1. 如何确定聚类结果是否恰当,有些情况下ccc psf表现良好,但是做一些特征分析时,发现它们分的并不是很开;
2. 我用了k-means和系统聚类时,做过两个数据集。总是有一类的样本数量特别多(几万个,占80%+),而其它类别可能只有零星十几个,一千多个,请问该如何处理呢? 若认为那几十个属于极端值,剔除再聚。 但是我剔除之后,又会出现新的“几十个”极端值。我纳入的变量比较多,可能有20几个,是不是太多了?
困扰好久了,网上也没有搜到合适的资料,只能拜托坛友了。非常感谢!感谢!感谢!