摘要:文本分割是非结构化文本处理的一个重要预处理步骤,对自然语言处理中的许多任务如自动摘要、自动问答和信息检索等的处理效果具有重要的影响。针对文本分割算法要解决的最根本问题:主题相关性度量和边界划分策略,利用"分割单元"内部具有最大的主题相关性而"分割单元"之间具有最小的主题相关性的思想,以上下文相关性分析计算为基础,构建面向中文文本的文本分割模型框架和分割模式的优化方法。通过三组选自国家汉语语料库的测试结果表明,该方法识别分割边界的平均错误率和最低值均好于现有的其他中文文本分割方法。
原文链接:http://www.cqvip.com//QK/90089A/201106/40529332.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)