全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
736 1
2020-01-12
2020/01/12
《百面机器学习-算法工程师带你去面试》读书笔记
《No.12: p106~p115》第五章 非监督学习

Q42 自组织映射神经网络是如何工作?它与K均值算法有何区别?

1        定义:自组织映射神经网络(Self-Organizing Map, SOM),是无监督学习方法中一类重要方法,可用于<聚类>、<高维度可视化>、<数据压缩>、<特征提取>等多种用途。
2        SOM如何工作?
2.1        初始化: 用小的随机值进行初始化。
2.2        竞争: 具有最小判别函数值为胜利者。
2.3        合作: 胜利者确定后,再更新与其邻近的节点。
2.4        适应: 调整权重,使胜利者的响应增强。
2.5        迭代: 回到步骤2,直到映射趋于稳定
3        SOM与K均值的区别?
3.1        类别个数的设定: K均值需要事先设定个数;SOM不必设定。
3.2        类别更新方式: K均值找到最相似的类别后,只会更新这各类的参数;SOM还会更新邻近的节点。
3.3        可视化: K均值可视化较差;SOM可视化较好。

Q43 如何设计自组织映射神经网络并设定网络训练参数?
1        设定输出层神经元的数量
2        设计输出层节点的排列
3        初始化权值: 可随机初始化,但尽量使权值的初始位置与输入样本
的大概分布吻合。
4        设计拓璞领域: 使领域不断缩小。
5        设计学习率:学习率可先取较大的值,之后再以较快的速度下降,可较快捕捉输入向量的大致结构。

Q44 没有外部数据,如何评估两个聚类算法的优劣?

1        估计聚类趋势:
1.1        检查数据分布是否存在非随机簇结构。若数据是随机的则聚类结果无效。
1.2        观察聚类误差是否随类别数量增加而单调变化。
1.3        透过霍普金斯统计量来判断随机性。
2        判断数据簇数
2.1        找到与真实数据分布最为吻合的簇数。以此判定聚类结果的数量。
2.2        采用手肘法或Gap Statistic方法。
3        测试聚类质量: 通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。
3.1        轮廓系数: 透过所有点所对应的轮廓系数平均值来决定聚类结果的质量。
3.2        均方根标准偏差
3.3        R方
3.4        改进的Hubhert统计: 通过数据的不一致性来评估聚类的差异。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-1-13 02:58:57
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群