论文部分内容阅读
随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如Siri已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面:(1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取作文资源,并利用Lucene搭建了一个检索平台。(2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。对比两种候选文档的方式,结果表明,使用范文作为候选文档生成的作文质量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。(3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评价方法。在评价作文内容特征时,我们考虑了其N-gram共现、Skip-gram共现、LCS共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误;在评价篇章连贯性时,我们考虑了包括词重叠、LSA以及连接词三个方面的指标。最后,训练出的回归模型,获得了相关系数为0.83的结果。