大学英语四级作文自动生成技术研究

被引量 : 0次 | 上传用户:wumujiayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如Siri已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面:(1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取作文资源,并利用Lucene搭建了一个检索平台。(2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。对比两种候选文档的方式,结果表明,使用范文作为候选文档生成的作文质量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。(3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评价方法。在评价作文内容特征时,我们考虑了其N-gram共现、Skip-gram共现、LCS共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误;在评价篇章连贯性时,我们考虑了包括词重叠、LSA以及连接词三个方面的指标。最后,训练出的回归模型,获得了相关系数为0.83的结果。
其他文献
<正>五年多来,中资金融机构主动对接外部机构,加强与有影响力的国际金融机构的合作,正在形成"众人拾柴火焰高"的新局面。2013年以来,"一带一路"从倡议到行动,取得了明显成效,
类别知识包括分类和类别特征推理两大重要功能,以往研究常将二者分开研究,并且多集中于自然类别的研究,有关社会类别研究相对缺乏。并且,在5岁儿童如何进行类别与特征关系内
国家高新区是区域经济创新驱动发展的核心载体,其与所在城市的互动协调发展对于建设创新型城市乃至创新型国家意义重大。运用熵值法、DEA模型和耦合协调度模型,测算了2008-20
随着现代社会的发展,我们处在了一个越来越纷繁复杂的社会中,每天都有可能面临潜在的危机。对于企业来说更是如此。现今中国已经成为了全球经济发展的焦点,在这片土地上生存
《药》是鲁迅的短篇小说,这篇小说它描写了革命初期,华老栓用蘸着革命者鲜血的馒头给儿子治病而终于没有治好的悲剧,通过此描写了群众的愚昧落后和精神上的麻木。《彩票》是
目的探讨人工全髋关节翻修术围手术期的护理方法与体会。方法对20例人工全髋关节翻修术患者进行认真的术前、术后护理,预防并发症,指导患者及时进行功能锻炼。结果本组20例患
<正>共有著作权是指因合作创作,或者基于转让、遗赠和继承等法律事实而产生的,由两个或两个以上主体共同享有的著作权.共有著作权的行使,则是指两个以上的权利
运用可持续发展的思想,分析了宁波市农业自然资源形成的自然地理环境条件、农业自然资源基本态势及开发利用所面临的问题。结果表明,耕地面积逐年减少、资源质量下降、农业水
目的:回顾分析肺内磨玻璃密度结节(ground-glass nodules, GGNs)胸腔镜术前CT引导下Hook-wire定位的临床应用并总结操作经验。分析GGNs距离胸膜的深度与定位针偏离误差的关系,探