全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
732 0
2018-01-21
摘要:中文领域术语的抽取,是文本知识挖掘的重要内容。传统的中文领域术语抽取方法以人工方法为主,显然这种方法费时费力。目前,处于研究阶段的中文领域术语自动化抽取方法主要有:基于字典的方法、基于规则的方法以及基于统计的方法。但由于中文自然语言的复杂性,这些自动化抽取方法都存在一定的局限性,比如对特定领域的用户字典及规则存在更新速度慢、文本特征考虑不足等,从而导致抽取的效果不佳。针对这一问题,提出了一种基于文本特征和复合统计量的中文领域术语抽取方法,该方法在对中文文档中的词语进行粗粒度筛选后,再综合考虑候选术语的词性、长度、边界词语等文本特征,构造出信息熵和TFIDF等统计量,计算其综合权值,并将综合权值大于设定阈值的候选术语抽取出来,作为最终的领域术语。实验结果表明,该方法在测试语料下,获得了较好的正确率、召回率和F值。

原文链接:http://www.cqvip.com//QK/91782X/201704/672837670.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群