摘要:为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两类,统计实验语料句的词汇特征和位置特征,构建相应的特征库,用朴素贝叶斯模型对特征进行训练。在词性标注和分词的基础上,结合
机器学习生成的模型判定是否为实验语料句,进行抽取。以自然语言类科技文献作为数据来源,在该领域随机选取了200篇科技文献进行抽取实验,对比人工判别方法和所提方法的抽取结果,验证了所提方法能够较为准确地获取实验语料信息。
原文链接:http://www.cqvip.com//QK/95033X/201611/670576524.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)