摘要:准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的.在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了"改进的两阶段K-Means聚类算法"来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型.这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律.将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型.实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek-Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16.17%,召回率提高大约9.64%.
原文链接:http://www.cqvip.com//QK/96983X/200503/15596493.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)