【学习笔记】2020/01/15 《百面机器学习-算法工程师带你去面试》读书笔记《N ...

750

收藏 2020-01-15

2020/01/15
《百面机器学习-算法工程师带你去面试》读书笔记
《No.14: p127~p132》第六章概率图模型

Q50 如何对中文分词问题用隐马尔可夫模型进行建模和训练?

1. 在隐马尔可夫模型中，隐状态x观察者是不可见的，观测者能观测到的只有每个隐状态x对应的输出y，而观测状态y的概率分布仅仅取决于对应的隐状态x。
2. 隐马尔可夫模型通常用来解决序列标注的问题，故可将分词问题转化为一个序列标注问题来进行建模。例如可将中文句子中的每个字做标注，如B表示一个词的开头第一个字、E表示一个词结尾最后一个字、M表示一个词中间的字、S表示一个单字词，再进行有监督训练(用最大似然估计)或无监督训练(Baum-Welch算法)。

Q51 最大熵马尔可夫模型为何会产生标注偏置问题? 如何解决?

1. 最大熵马尔可夫模型去除了隐马尔可夫模型中观测状态相互独立的假设，考虑了整个观测序列，因此获得更强的表达能力。但由于局部归一化的影响，隐状态会倾向于转移到哪些后续状态可能更少的状态上，以提高整体的后验概率，所以产生标注偏置问题。
2. 透过条件随机场(Conditional Random Field, CRF)在最大熵马尔可夫模型的基础上，进行了全局归一化，解结了标注偏置的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jessie68us

2020-1-16 06:19:20

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群