摘要:由于LDA模型需要预先给定话题个数k,因此在进行最优话题个数k选取时需要对语料库进行k值循环计算,从而加剧了算法的复杂度。针对LDA模型的最优k值选取问题,提出LDA话题增量训练算法。该方法首先以词-话题概率熵值作为LDA迭代过程中模糊单词的选取标准,并将抽取模糊单词归入新话题;其次,增加LDA变分推理过程中全局参数β(单词-话题概率矩阵)和α(狄利克雷分布参数)的维数及话题个数k;再次,将变换后的全局参数β、α和k作为输入进行变分训练;最后,循环调用LDA话题增量训练算法并在似然函数值收敛时停止循环过程,完成k的增量训练。此外,通过对真实数据集的实验分析验证了本文算法对最优k值选取的有效性和可行性。
原文链接:http://www.cqvip.com//QK/95788B/201504/665405687.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)