摘要:词典系统是自然语言处理领域较为基础,但又很重要的数据来源。其质量的好坏,会影响上层的分词技术和语义的标注工作。对词间关系的语义分析,能够使得自然语言处理智能化。因此文中针对词典系统提出了分层次管理模式,以行业为父节点,称为行业类别,语义相近的词语集合作为其子节点,称为词语类别集合,其包括子代表词,简称词,同义词等词语类型的词语。将这种词间关系设计成一个词间关系模型,这对多重语义的词语也起到了有效的管理。由于词典系统大都是手工录入,有一定的局限性,因此在K-means的基础上,设计了MS-kmeans算法,对词语类别分类得到有效地提高,同时对词语的标注也得到较大的改善。
原文链接:http://www.cqvip.com//QK/91788A/201509/666138458.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)