基于Multigram语言模型的主动学习中文分词

671

收藏 2018-01-23

摘要：分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难，本文以无督导分词方法为基本框架，使用EM算法建立n元multigram语言模型。提出了一种基于置信度的主动学习分词算法。使得系统在主要利用大量未标注数据的同时，还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。

原文链接:http://www.cqvip.com//QK/96983X/200601/21013634.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群