摘要:词义消歧,作为自然语言处理领域最具挑战性的任务之一,目前正面临着知识获取瓶颈(Knowledge Acquisition Bottle-neck)的阻碍。目录标签消歧,作为词义消歧的又一崭新的应用领域,是轻量级本体学习(Lightweight Ontology Learning)中十分重要的一个环节。旨在探索一种基于Web知识(不受知识获取瓶颈制约)并应用于目录标签消歧的词义消歧方法。其主要思想为:首先,利用Web知识(Web搜索引擎)和WordNet等外部资源,将待消歧词t的上下文c及n个候选词义s1…sn扩展为各自的向量形式,并提出的一种tf-idf变体(条件tf-idf)来计算向量中的分量值。之后,又提出一种新颖的混合消歧模型,综合考虑各候选词义与待消歧词上下文的相关度及候选词义先验分布这两个因素进行消歧。据了解,类似做法在基于Web的词义消歧中还未出现过。在实验中,在网页目录DMOZ的一个子集(共1100个待消歧词)上进行了实验。系统以100%的召回率达到83.40%的准确率,高于基线准确率(单纯根据词义先验分布消歧)73.37%达10个百分点。
原文链接:http://www.cqvip.com//QK/90976X/201009/35321691.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)