基于深度学习的英语语法纠错算法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:gg741852963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的英语语法学习场景下,学习者对教师的依赖性很大。教育资源的稀缺决定了教师无法对学生所犯的所有语法错误进行纠正,这大大拖慢了学习者的学习进度。英语语法自动纠错方法可以帮助学习者摆脱教育资源的限制,显示出了巨大的意义。针对英语语法自动纠错方法的研究主要经历了三个发展阶段:基于规则的纠错方法、基于分类的纠错方法以及基于机器翻译的纠错方法。基于规则的纠错方法需要耗费大量的专家标注成本,基于分类的纠错方法和基于机器翻译的纠错方法的出现在很大程度上解决了这个问题。近年来提出的深度分类纠错模型较传统的基于统计分类的纠错模型有较大的进步,但有关深度分类语法纠错模型的研究仍然较少,其只能针对闭式类错误进行纠正的特性依然是一大缺陷。基于机器翻译的纠错模型能针对所有语法错误进行修正,但神经网络模型往往需要大量的语料数据才能得到充分训练,带有人工标注的训练语料的稀缺限制了基于机器翻译的语法纠错模型的纠错效果。针对上述问题,本文从两种思路对英语语法自动纠错算法进行探究。一是使用深度分类模型来进行语法纠错,另一种是将语法纠错问题当作机器翻译。首先,本文提出了一种新的深度分类纠错模型。该模型自下而上依次为词嵌入层、编码器层、注意力层以及MLP层。实验结果表明,新的深度分类模型能够更好地捕获句中的语义信息并进行纠正。同时,本文还通过制造伪错误语料的方式对深度分类模型的训练语料进行了扩充,实验结果表明,扩充训练语料的方式大大提升了深度分类纠错模型的效果。其次,本文对基于机器翻译的纠错模型进行了探究。本文对比了在不同机器翻译框架上的语法纠错表现,在本文的实验中,基于复制机制的Transformer结构在语法错误纠正上拥有更好的表现。本文还提出了一种新的制造平行句对的方式来扩充训练语料,并与随机扰动句子和反向语法错误生成这两种增广训练语料的方式对比。本文分别使用这三种方式生成的训练语料对模型进行预训练,并使用人工标注的语料进行精调。实验结果表明,本文提出的语法错误生成方法所生成的错误句子更贴近学习者所犯的错误,使用该方法产生的语料所训练的模型拥有更好的纠错效果。最后,本文将基于机器翻译的语法纠错算法在冠词错误、介词错误和名词单复数错误的纠错表现与基于分类的纠错算法相对比。实验结果显示,基于机器翻译的纠错算法在冠词错误、介词错误和名词单复数错误上都取得了更好的效果。
其他文献
在全世界气候日趋变暖和能源安全问题日益突出的大环境下,具备节能环保特性的新能源汽车在全球范围内不可避免地成为了汽车工业的主流发展方向。为顺利推广新能源汽车,我国政府从宣传、购车到使用环节分别颁布了宣传政策、购车政策、路权政策、充电政策这一系列新能源汽车激励政策。上海作为首批新能源汽车推广试点城市和发展私人新能源汽车市场的前沿试点城市,在新能源汽车推广上取得了一定的成效。上海市也就本地基本情况因地制
学位
水资源是人类生存和发展必不可少的自然资源。我国虽然水资源总量丰富,但是人均水资源量处于世界靠后位置,是世界上人均水资源贫乏的国家之一。与此同时,我国水资源空间分布不均,东南多西北少,这使得缺水地区的水资源短缺问题更为严峻。习近平总书记在十九大报告中指出:“生态文明是中华民族永续发展的千年大计。必须树立绿水青山就是金山银山的理念,坚持节约资源和保护环境的基本国策。”2016年水资源税率先于河北实施试
学位
混合所有制改革是我国国有企业改革的顶层设计和主要方向,多种资本交叉持股、互相制衡,不仅优化了企业股权结构,而且有利于缓解国有控股股东“一股独大”的现象。非国有资本的引入使非国有股东积极参与公司治理,在一定程度上解决了其固有的弊端,激发了国有企业的活力与创新能力。中共十九大之后,我国进入经济发展的“新常态”时期,不仅追求经济发展的速度,而且注重经济发展的高质量。创新成为驱动发展,推动经济高质量持续增
学位
债券融资我国企业最重要的外部融资方式之一,探究债券融资成本的影响因素是一直以来学者极为重视的研究领域。在以往的研究中学者大多从宏观因素、公司原生的公司特征、债券设计这三方面出发研究债券融资成本的影响因素。然而事实上,公司特殊的股东背景也会对公司的融资环境产生一定影响,进而影响债券融资成本。风险投资作为区别于传统机构投资的权益投资形式,自1998年在我国发展起来后就对我国企业上市前经营管理以及上市后
学位
随着用户市场和营销环境的变化,车企会对产品做出适时调整以完善产品设计、满足新的需求。汽车改款和换代是调整的主要方式,汽车换代是对车型的重新设计和制造,汽车改款是对车型配置等方面进行改良。汽车的更新换代往往会作为车型的新卖点,同时也将掀起舆论风波,引发市场对汽车厂商相应更改的讨论,有效把握舆情事件、跟踪舆情走势对于车企来说至关重要。我们的研究始于别克英朗三缸发动机的切换事件。2010年初,以注重品质
学位
随着移动互联网的飞速发展与电子商务市场的不断扩大,许多大型电商平台的产品数量也呈现爆炸式地增长。为了帮助用户检索选购与商家经营管理,需要对产品进行科学合理的分类。目前平台常用的方法是人工分类法,由平台专家构建一个产品层次类别树状体系,当商家上架产品时根据自身对于产品与分类树的理解将产品归置到分类树的一个或多个叶子节点上。然而,人工分类方法需要耗费大量的人力物力成本,而且由于商家对平台分类体系以及商
学位
在企业运营环境快速变化,产品迭代速度加快的今天,互联网广告被企业广泛应用于产品营销过程中,特别是在新产品上市时期,广告宣传作为一种重要的营销手段能够向潜在客户提供产品信息,促进消费者产生购买兴趣从而使企业获取更高的收益。为了控制投入成本,企业通常会对一个销售期内的广告预算和可用产品库存进行限制,因此在库存限制下制定有效的广告预算分配策略对于企业决策至关重要。传统的收益管理研究中通常假设营销商已知顾
学位
高中阶段的数学教学更注重学生综合能力的培养。因此,传统的教学方式已经不能满足高中学生数学学习的需要,引入与培养诉求高度一致的元认知策略既是需求也是要求。本文对元认知策略进行了简单描述,从高中数学教学现状及元认知策略引入高中数学后的教学改善两个方面进行了研究阐述,意在让元认知策略真正服务于高中数学教学,提高学科教学质量的同时,实现人才培养的目标。
期刊
上证50ETF期权于2015年2月9日在上交所挂牌,是我国境内首个上市交易的期权产品。随着我国期权市场的逐步发展,市场参与者在数量上也逐步提升,期权成交量大体呈逐年上升趋势,体量可观。在这个背景下,投资者受市场信息和波动风险的影响越来越突出,人们对期权投资框架的认知需求与日俱增。探讨上证50ETF期权规律,挖掘中国期权特点,并逐步深入对期权的风险、投资策略的研究,发现其中值得进一步探究的地方是非常
学位
随着中国的疾病年轻化,就医人口在1990年到2000年短短10年由6299万增加至8811万,增加了2512万人,占总人口的比例也由5.57%上升为6.96%,就医人口正以每年5%的速度增加,到2040年将增加到7400多万人。由于疾病年轻化越来越严重,中国人口就医人数越来越多,随之带来的就医资源需求就越来越大。社会的发展以及环境的变化和人们生活水平的提高,导致对医疗服务的需求也在不断增长,医疗资
学位