摘要:以2015年NIPS会议(世界上顶级的
机器学习会议之一)上收录的论文集为研究对象,通过一系列的相关数据处理方法将其整理成实验数据(提供下载),基于Abstract和Fulltext模型下建立TF-IDF矩阵,通过KNN算法来计算和对比二者的文档相似度。实验结果发现,Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型;二者模型下的共同相似文档个数随着Knearestneighborhood(KNN)算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言,Abstract模型在为我们进一步研究文档相似度提供了更好的依据。
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)