摘要:命名实体识别是当前自然语言处理的热点问题之一,对信息检索、信息抽取等具有重要意义.然而,目前多数研究都集中在对命名实体全称的识别上.本文以财经为领域背景,对从文本中识别简称,并将其映射成全称问题进行了研究,提出了一个启发式算法用于解决该问题.所提出的算法首先提取文本中每个N元组(N-gram)作为候选的公司名简称,然后建立n元组与全称表中每个全称的最优对齐关系,最后对每对“N元组一全称”对齐关系进行评价和筛选,识别出文本中的简称及每个简称对应的全称.在随机获取的网页文本集上对所提出的算法进行了实验测试,算法的精确率、召回率和F-度量值分别为83.62%、87.28%、85.41%.
原文链接:http://www.cqvip.com/Main/Detail.aspx?id=37389007
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)