摘要:【目的】以本体管理与服务平台为基础,利用三元组获取和自然语言处理技术实现中文科技文献的自动标引。【方法】通过Web Services接口将本体知识库和词汇资源集成到标注模块中,利用词典匹配和分词组合方法分别获取文献中的领域词和未登录词,并与本体知识库中的三元组建立链接,形成领域概念关系网络。【结果】通过语料测试,系统能以86篇/秒的较快速度进行文献标引和词汇链接,并达到65%的全面率和69%的准确率。【局限】词典加载后未做索引,匹配计算耗时过多,空格、断行等噪声数据对文本的分词处理和词性判断产生影响。【结论】数据清洗流程和关键词筛选算法改善后,可以进一步提高标引效率,为深度挖掘文本提供支撑。http://www.cqvip.com//QK/93371X/201509/666036047.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)