首页> 中文学位 >英语作文自动评分方法研究
【6h】

英语作文自动评分方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 国外研究现状

1.2.1 Project Essay Grade---PEG

1.2.2 Intelligent Essay Assessor---IEA

1.2.3 Electronic Essay Rater---E-rater

1.2.4 IntelliMetricTM

1.2.5 Bayesian Essay Test Scoring System---BETSY

1.3 国内研究现状

1.3.1 冰果英语智能作文评阅系统

1.3.2 句酷批改网英语智能作文评阅系统

1.3.3 自动作文批改理论研究

1.4 本文的主要工作

1.5 本文的组织结构

第二章 作文特征向量的抽取

2.1 作文的预处理

2.2 特征值的选取

2.2.1 TF×IDF(词频×逆文档频率)

2.2.2 MI(互信息量)

2.2.3 x2(卡方检验)

2.3 权值函数

2.4 本章小结

第三章 作文内容表示模型

3.1 向量空间模型

3.2 潜在语义分析模型

3.2.1 潜在语义分析的特点

3.2.2 奇异值分解

3.2.3 潜在语义分析实例

3.3 基于LCS作文的内在关联度

3.4 本章小结

第四章 作文语言表示模型

4.1 Lucene Analyzer模块

4.2 WordNet语义词典

4.3 基于Stanford Parser生成的句法树模型

4.4 基于规则的语法匹配模型

4.5 本章小结

第五章 以信息增益为权重的距离加权KNN算法

5.1 基于KNN算法的作文内容评分

5.2 KNN算法不足之处及改进

5.3 改进的KNN算法

5.3.1 以信息增益为属性的权值

5.3.2 计算文章中各属性的信息增益值

5.3.3 对距离进行加权

5.3.4 改进后的KNN算法

5.4 本章小结

第六章 KNN在英语自动评分方法中的研究

6.1 问题的提出

6.2 数据的抽取

6.2.1 数据预处理

6.2.2 属性抽取

6.2.3 特征选择

6.3 英语作文自动评分的实验分析

6.4 本章小结

第七章 总结与展望

7.1 工作总结

7.2 未来展望

致谢

参考文献

攻读学位期间发表的论文

展开▼

摘要

在英语学习中,主观题是衡量一个学生掌握语言能力的有效方法,目前已被广泛的应用于各类英语考试中。随着现代科技的发展,计算机正在不断的向智能化的方向前进。自动作文评分方法的研究和开发也是这一趋势的具体体现。
  自动作文评分就是利用计算机技术对作文进行识别,分析和打分,相比人工审阅,计算机识别不仅成本更低,而且更加客观,在保证公平性的前提下,极大的提高审阅效率。除此之外,自动作文批改还可以统计出每篇作文的用词构成,单词拼写,语法错误等,从而提供给教师和学生更科学的指导意见。
  本文从作文语言和内容两个方面讨论了如何对作文进行属性抽取,并提出了一个改进的分类预测算法。
  对于作文的内容方面的表示,本文采用潜在语义分析(Latent Semantic Analyze,LSA)方法。相比较分析一个句子中单词的出现情况,它更关注上下文范围内的语义构成。这样的分析方法更加符合人类的阅读和理解方式。其核心思想是通过奇异值分解将文档向量和词向量投影到一个低维空间,使得相互之间有关联的作文即使没有使用相同的词也能获得近似的向量表示,从而得出作文上下文的关联度。同时利用卡方检验等统计的方法计算出更能代表作文内容的特征单词,提取出这些单词作为表征作文内容的特征项。通过实验结果得出:抽取特征单词的LSA方法比未抽取特征单词的LSA在准确性上具有少量的优势。
  在作文的语言方面,本文从词汇、语法、句法结构三个角度分别抽取若干特征来度量作文的语言质量,并结合自然语言处理技术得到一个更加合理的评分结果。对于句法结构的多样性可以通过句法分析器Stanford Parser来获得,Stanford Parser在提取句子的句法树的同时,也会标识出句子中单词或短语的成分,如主语,谓语,从句等,通过句法树可以得到句子中不同种类从句个数、不同词性单词个数等特征值;对于作文中可能出现的语法错误,通过定义描述常用英语语法错误的XML规则文件,将经过Stanford Parser处理后带标识的英语作文与错误语法规则进行匹配来检查语法错误,得到代表作文语法错误情况的特征值。这些特征值和表示作文内容方面的特征值一起,构成了能够表示英语作文的特征向量。
  针对近邻算法(k-NearestNeighbor,KNN)算法存在的一些不足之处,本文在其基础上做出了一些改进:一方面利用信息增益方法计算出作文各特征项的权值,对各特征项进行加权;另一方面对样本点与测试点的距离进行加权,即越近的样本点给予越高的权值。通过这一特征向量,可以利用k近邻算法对作文进行评分。并结合上面提到的多种作文内容表示方法,进行了实验对比。实验表明,以信息增益为权重的距离加权KNN算法结合带特征选取的LSA与教师评分具有最小的误差,与未改进的KNN算法结合LSA相比,与教师评分的误差从4.51降到了2.85,表现出了最好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号