全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
13577 3
2019-03-09
LDA分析中,分析来确定主题数量时,perplexity随着主题数目增大持续下将,该怎么办?理论上讲,应该选择困惑度最小的那个主题数模,我只做了5到60个主题的分析,由于数据量太大,花了43个小时。我可以继续计算60到200个主题的perplexity,但是即便是到了100个主题时,perplexity开始上升,但是100个主题显然太多了,与实际情况不相符。那么我目前这个情况,该如何选择如题数目呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-4-2 10:55:36
同问
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-10-29 11:13:45
LDA主题模型属于最基础的主题模型,采用perplexity来选择最优主题数,我的经验是不太靠谱的。不少研究表明,基于perplexity选择的主题,语义上与人工的判别有一定差距。如果不用LDA,而是用HDP,划分出来的主题数多而细,难以满足我们经管领域的研究需要。国外2016年以来的研究表明,采用 semantic coherence和 topic exclusivity指标来评价,能较好地解决这一问题。我有一篇已录用的中文论文讲如何应用,等见刊后可以查看。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 17:02:23
structual 发表于 2019-10-29 11:13
LDA主题模型属于最基础的主题模型,采用perplexity来选择最优主题数,我的经验是不太靠谱的。不少研究表明, ...
请问你的论文名是什么呀?想下载看一看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群