利用上下文信息解决汉语自动分词中的组合型歧义

565

收藏 2018-02-10

摘要：组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法，选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略，继而根据实验定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素，并且针对数据稀疏问题，利用词的语义代码信息对征矩阵进行了降维处理，取得了较好的效果。笔者相信，这个模型对组合型歧义切分字段的排歧具有一般性。

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群