摘要:词语的上下文(context)是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.但上下文“窗口”开多大为宜呢?为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,我们在引入信息增益方法确定上下文各位置的信息量后,构造上下文位置信息量函数,最终通过多项式积分确定85%信息量的上下文边界,即汉语核心词语最近距离[-8,+9]和英文[-16,+13]位置之间的上下文范围.该文的结果对上下文在自然语言处理中的价值和作用给出了一个具有统计意义的量化解释.
原文链接:http://www.cqvip.com/Main/Detail.aspx?id=5722509
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)