【学习笔记】2020/01/12 《百面机器学习-算法工程师带你去面试》读书笔记《N ...

781

收藏 2020-01-12

2020/01/12
《百面机器学习-算法工程师带你去面试》读书笔记
《No.12: p106~p115》第五章非监督学习

Q42 自组织映射神经网络是如何工作?它与K均值算法有何区别?

1 定义:自组织映射神经网络(Self-Organizing Map, SOM)，是无监督学习方法中一类重要方法，可用于<聚类>、<高维度可视化>、<数据压缩>、<特征提取>等多种用途。
2 SOM如何工作?
2.1 初始化: 用小的随机值进行初始化。
2.2 竞争: 具有最小判别函数值为胜利者。
2.3 合作: 胜利者确定后，再更新与其邻近的节点。
2.4 适应: 调整权重，使胜利者的响应增强。
2.5 迭代: 回到步骤2，直到映射趋于稳定
3 SOM与K均值的区别?
3.1 类别个数的设定: K均值需要事先设定个数；SOM不必设定。
3.2 类别更新方式: K均值找到最相似的类别后，只会更新这各类的参数；SOM还会更新邻近的节点。
3.3 可视化: K均值可视化较差；SOM可视化较好。

Q43 如何设计自组织映射神经网络并设定网络训练参数?
1 设定输出层神经元的数量
2 设计输出层节点的排列
3 初始化权值: 可随机初始化，但尽量使权值的初始位置与输入样本
的大概分布吻合。
4 设计拓璞领域: 使领域不断缩小。
5 设计学习率:学习率可先取较大的值，之后再以较快的速度下降，可较快捕捉输入向量的大致结构。

Q44 没有外部数据，如何评估两个聚类算法的优劣?

1 估计聚类趋势:
1.1 检查数据分布是否存在非随机簇结构。若数据是随机的则聚类结果无效。
1.2 观察聚类误差是否随类别数量增加而单调变化。
1.3 透过霍普金斯统计量来判断随机性。
2 判断数据簇数
2.1 找到与真实数据分布最为吻合的簇数。以此判定聚类结果的数量。
2.2 采用手肘法或Gap Statistic方法。
3 测试聚类质量: 通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。
3.1 轮廓系数: 透过所有点所对应的轮廓系数平均值来决定聚类结果的质量。
3.2 均方根标准偏差
3.3 R方
3.4 改进的Hubhert统计: 通过数据的不一致性来评估聚类的差异。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jessie68us

2020-1-13 02:58:57

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群