摘要:分词系统由于未将合成词收录进词典,因此不能识别合成词。针对该问题,提出一种基于词共现有向图的中文合成词提取算法。采用词性探测方法从文本中获取词串,由所获词串生成词共现有向图,并借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,该路径所对应的词串即为合成词。实验结果显示,该算法的合成词提取正确率达到91.16%。
原文链接:http://www.cqvip.com//QK/95200X/201123/40337146.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)