使用无监督学习改进中文分词

655

收藏 2018-01-12

摘要：针对互联网语料中的未登录词问题，提出一种基于无监督学习的中文分词改进算法．使用基准分词器对未标注的语料进行分词，选择适合于未登录词发现的模型进行无监督训练得到词向量，并使用词向量结果贪心地发现未登录词，修正分词结果．在传统中文语料上与互联网语料上，比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果．实验结果表明，改进算法可以提升中文分词效果，在互联网语料上的提升效果尤为明显．改进算法在PKU语料上取得了最多1．1％的F值提升，在MSR语料上取得了最多1．2％的F值提升，在互联网语料上取得了最多5％的F值提升．

原文链接:http://www.cqvip.com//QK/95659X/201704/671704483.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群