2020/01/15
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.14: p127~p132》第六章 概率图模型
Q50 如何对中文分词问题用隐马尔可夫模型进行建模和训练?
1. 在隐马尔可夫模型中,隐状态x观察者是不可见的,观测者能观测到的只有每个隐状态x对应的输出y,而观测状态y的概率分布仅仅取决于对应的隐状态x。
2. 隐马尔可夫模型通常用来解决序列标注的问题,故可将分词问题转化为一个序列标注问题来进行建模。例如可将中文句子中的每个字做标注,如B表示一个词的开头第一个字、E表示一个词结尾最后一个字、M表示一个词中间的字、S表示一个单字词,再进行有监督训练(用最大似然估计)或无监督训练(Baum-Welch算法)。
Q51 最大熵马尔可夫模型为何会产生标注偏置问题? 如何解决?
1. 最大熵马尔可夫模型去除了隐马尔可夫模型中观测状态相互独立的假设,考虑了整个观测序列,因此获得更强的表达能力。但由于局部归一化的影响,隐状态会倾向于转移到哪些后续状态可能更少的状态上,以提高整体的后验概率,所以产生标注偏置问题。
2. 透过条件随机场(Conditional Random Field, CRF)在最大熵马尔可夫模型的基础上,进行了全局归一化,解结了标注偏置的问题。