基于自然语言处理的作文自动评分系统研究

2317

收藏 2017-09-29

摘要：作文自动评分系统是应用计算机技术对英文作文进行评分的系统。作文自动评分系统综合应用了统计学、自然语言处理、语言学及信息检索等领域的技术。目前国外作文评分系统（如 E-rater）都得到了广泛运用。但是目前国内学者对英语作文自动评分系统的研究仍然处于初始阶段。随着在线教育的兴起，学生对知识掌握程度的衡量也需要自动化评测工具的帮助，因为传统的人工批改方式不再适用于拥有大量学生的在线教育。相比于人工评分，作文自动评分系统的评分更加快速，更加公正，更加经济。　　本文首先基于EDX平台的开源项目研发了基础的作文评分系统。该系统将作文评分过程看作是文本分类过程，采用的分类器是梯度提升决策树分类器。但这个评分系统并不完美，一方面系统特征不能充分反映作文特征，另一方面可扩展性不好，为了添加新的作文题目，需要新的训练集和测试集来重新训练评分模型。国外优秀的作文自动评分系统综合考虑了作文的语法表达、语义内容和篇章结构等评分因素。语法错误数量是衡量语法表达好坏的重要标准，所以论文将作文语法错误检测作为研究重点。　　本文随后研究了基于语言模型的语法检测方法。在该系统中，用SRILM工具搭建语言模型服务器。语言模型服务器可以用来查询N-gram词组的概率。根据单词词干为单词生成候选集，然后根据维特比算法求取最优词汇组合。若该词汇组合与原始句子不同，则认为检测出语法错误。但该方法也有缺陷，只能检测出替换类型错误，而无法检测出插入型错误和删除型错误。　　本文还研究了冠词和介词错误检测，这两种错误是英语学习者最常犯的语法错误。模型训练集提取自大不列颠国家语料库。因为该语料库可以认为是没有语法错误的，所以初始训练过程无任何错误样本。为了使训练样本更接近英语学习者语言表达，本文在训练过程中添加了人工制造的错误样本，从而引入错误语法信息，提高了分类器对错误信息的敏感度。本文将语法错误检测过程视作分类任务，选取的分类器是对稀疏特征有着强大分类能力的最大熵分类器。从实验结果来看，冠词和介词错误检测系统性取得了与国外大学研究成果相当的结果。论文最后展望了以后的研究重点:语义分析与更多种类的语法错误检测。

原文链接:http://d.wanfangdata.com.cn/Thesis/D795338

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群