2020/01/10
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.10: p90~p96》第五章 非监督学习
Q37 简述K均值算法的具体步骤
1. 数据预处理,如归一化、离群点处理等。
2. 随机选取K个簇中心。
3. 定义代价函数
4. 设定迭代步数,直到代价函数收敛
Q38 K均值算法的优缺点为何?如何对其进行调优?
1 K均值算法的缺点:
1.1 受初值及离群值影响,每次结果不稳定;
1.2 不太适用于离散分类等;
1.3 无法很好地解决数据簇分布差别比较大的情况。
2 调优方法
2.1 数据归一化及离群值处理。
2.2 合理选择K值:
2.2.1 基于经验和多次实验结果。
2.2.2 亦可透过图形,观察拐点来找出K的最佳值。
2.2.3 算出Gap Statisitic所对应的K值。
2.3 采用核函数: 通过非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。