摘要:分词是中文信息处理的基础,词典查询又是分词的基础。另外,搜索引擎需要对访问过的URL进行唯一性检测。针对汉语词典查询和唯一性检测这两个问题,提出Dynamic Hash TRIE词典算法,有效地压缩了节点,没有单链树枝。通过Java和C++编程实验,对比了多个同类算法,证明该算法对于中文词典具有较高的查询性能,灵活的可拓展性。另外还提出了一个词库测试的标准Norm Test,可以排除机器性能的干扰来对比各种算法。
原文链接:http://www.cqvip.com//QK/97364X/200801/26924091.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)