2020/01/12
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.12: p106~p115》第五章 非监督学习
Q42 自组织映射
神经网络是如何工作?它与K均值算法有何区别?
1 定义:自组织映射神经网络(Self-Organizing Map, SOM),是无监督学习方法中一类重要方法,可用于<聚类>、<高维度可视化>、<数据压缩>、<特征提取>等多种用途。
2 SOM如何工作?
2.1 初始化: 用小的随机值进行初始化。
2.2 竞争: 具有最小判别函数值为胜利者。
2.3 合作: 胜利者确定后,再更新与其邻近的节点。
2.4 适应: 调整权重,使胜利者的响应增强。
2.5 迭代: 回到步骤2,直到映射趋于稳定
3 SOM与K均值的区别?
3.1 类别个数的设定: K均值需要事先设定个数;SOM不必设定。
3.2 类别更新方式: K均值找到最相似的类别后,只会更新这各类的参数;SOM还会更新邻近的节点。
3.3 可视化: K均值可视化较差;SOM可视化较好。
Q43 如何设计自组织映射神经网络并设定网络训练参数?
1 设定输出层神经元的数量
2 设计输出层节点的排列
3 初始化权值: 可随机初始化,但尽量使权值的初始位置与输入样本
的大概分布吻合。
4 设计拓璞领域: 使领域不断缩小。
5 设计学习率:学习率可先取较大的值,之后再以较快的速度下降,可较快捕捉输入向量的大致结构。
Q44 没有外部数据,如何评估两个聚类算法的优劣?
1 估计聚类趋势:
1.1 检查数据分布是否存在非随机簇结构。若数据是随机的则聚类结果无效。
1.2 观察聚类误差是否随类别数量增加而单调变化。
1.3 透过霍普金斯统计量来判断随机性。
2 判断数据簇数
2.1 找到与真实数据分布最为吻合的簇数。以此判定聚类结果的数量。
2.2 采用手肘法或Gap Statistic方法。
3 测试聚类质量: 通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。
3.1 轮廓系数: 透过所有点所对应的轮廓系数平均值来决定聚类结果的质量。
3.2 均方根标准偏差
3.3 R方
3.4 改进的Hubhert统计: 通过数据的不一致性来评估聚类的差异。