基于重复字串的微博新词非监督自动抽取

857

收藏 2017-09-26

摘要：文章基于重复字串的统计特征，同时分析微博中存在的口语化语言特点制定相应的语言规则，采用统计和规则相结合的方法，首先对微博的语料进行分词，然后从分词碎片中提取重复出现2次及2次以上的新词，通过多层过滤，得到最终的候选新词。实验结果证明，该方法有效地保证了较高的准确率和召回率，同时保证了新词的抽取速度。

原文链接:http://www.cqvip.com/QK/90962X/201406/50187105.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群