2020/01/16
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.15: p133~p138》第六章 概率图模型
Q52 常见的主题模型有哪些? 其原理为何?
Ans: 有两个常见主题模型,包括pLSA、LDA
1 pLSA(Probabilistic Latent semantic Analysis)
1.1 pLSA是用一个生成模型来建模文章的生成过程。
1.2 语料库的文本生成概率可用似然函数表示。
1.3 因参数中包含隐变量,所以不能用最大似然估计求解,要用最大期望算法来解决。
2 LDA(Latent Dirichlet Allocation)
2.1 LDA是pLSA的贝叶斯版本。
2.2 LDA认为待估计的参数(主题分布和词分布)不再是一个固定的常数,而是服从一定分布的随机变量。此分布符合先验概率分布(狄利克雷分布)。
Q53 如何确定LDA模型中的主题个数?
1. 在LDA模型中,主题的个数K是一个预先指定的超参数,对于模型超参数的选择,做法是将全部数据分成训练集、验证集和测试集三部份,然后利用验证集对超参数进行选择。
2. 评估LDA模型验证集和测试集的效果,会用到”困惑度(perplexity)”评估指标。
Q54 如何用主题模型解决推荐系统中的冷启动问题?
1 冷启动的意思: “没有”大量用户数据下,如何给用户进行个性化推荐,目的是最优化点击率、转化率或用户体验。
2 冷启动的分类:
2.1 用户冷启动: 对之前没有行为或行为极少的新用户进行推荐
2.2 物品冷启动: 一个新上市的商品或电影寻找潜在的用户。
2.3 系统冷启动: 为一个新开发的网站设计个性化推荐系统。
3 解决冷启动的方法
还是从用户的各种信息来推断,如注册信息、Facebook的内容等