基于机器翻译的英语语法错误自动检测与纠正问题研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户:zhp95869213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英语语法纠错作为自然语言处理领域的一项子任务,可以为第二语言学习者提供语法错误的自动修改和文章润色等服务。现今主流的英语语法纠错方法以基于数据驱动或机器翻译的方法为主,相关标注语料的不足是影响此类方法性能的主要原因之一。因此,在面临标注语料匮乏的情境下,如何兼顾数据的质量和数量来训练数据增广模型显得尤为重要。预训练纠错模型的使用,对提高语法纠错模型的性能也具有重要意义。模型的预训练方法通常可以使用海量无标签的数据,通过学习输入句子中每个单词的上下文相关表示,达到提升下游任务的目的。本文主要探索如何结合不同数据增广方法的优势,为英语语法纠错任务自动生成训练数据;其次,探索一种基于机器翻译的英语语法错误纠正方法,与重排序策略相结合,共同提高模型的纠错性能。主要研究工作如下:1.设计一种新颖的基于机器翻译的数据增广策略。通过分析现有学习者语料库中错误类型的分布,对常见的错误类型建立与上下文相关性高的混淆集。使用混淆集并结合人工规则的方法对单语语料进行加噪处理,获得人工合成数据。最后将人工合成的训练数据与学习者语料库相结合,共同用于基于机器翻译的错误生成模型的训练。2.设计一种基于机器翻译的英语语法错误纠正模型,并采用一种新的模型优化方法提高模型性能。首先使用本文提出的基于机器翻译的错误生成模型合成训练数据,将其用于语法错误纠正模型的训练。然后,使用语法错误纠正模型纠正学习者语料库中的源句,将纠正产生的目标句与人工注释的标准句构成“错误-正确”句对,反馈输入到错误生成模型,进行交替训练。通过建立语法错误检测模型与语法错误纠正模型间的联系,提高模型的错误检测与纠正能力。3.设计一种语法错误检测模型,作为最终结果纠正、优化的工具。通过训练基于BERT的英语语法错误检测模型,与编辑操作特征和语法错误纠正模型的输出概率相结合,共同对纠错系统输出的候选句重打分,选择得分最高的候选句作为最佳结果输出。
其他文献
21世纪以来,我国人口老龄化情况逐渐加剧,并且随着工业的发展,患有骨疾病的患者逐年增加,人工骨骼植入物成为解决这一问题的重要途径,而传统加工方式难以对骨骼结构进行精准的成形,并且金属力学性能与人体骨骼并不匹配,在植入后难以对骨细胞形成有效的刺激,易产生“应力集中”“应力屏蔽”等现象。选择合适的加工方法、降低骨组织支架弹性模量成为研究的重点。选择性激光熔化技术可以通过激光熔化金属粉末的形式逐层叠加加
学位
耗能减震是一种广泛应用于结构减震的技术,相对于传统建筑结构通过增大其承载能力或提高其弹塑性变形能力来抵抗大震以及巨震,这种技术通过在结构中设置阻尼器,代替结构消耗大部分地震输入的能量以减少结构自身的损伤。本文基于SAP2000软件研究某10层RC框架结构在I类、II类和III类场地下的抗震性能,分别对传统无阻尼器框架结构、粘弹性阻尼器加固结构和考虑设置粘弹性阻尼器配筋结构进行非线性弹塑性分析及地震
学位
随着电子科技的不断进步,电磁波在日常生活和生产中产生的电磁污染日益严重,在军事和国防领域,制备能躲避雷达探测的隐身战斗机可以在实战中占据更大优势,基于以上两方面,吸波材料的研发越来越引起了科研工作者们的关注,铁氧体由于其独特的磁性能而在电磁波吸收领域有较好的应用,但其自身在吸波性能方面仍存在损耗机制单一以及密度较大等问题,因而本论文采用金属离子掺杂以及制备纳米复合材料的方式探究铁氧体的制备方法以及
学位
鄱阳湖是典型的季节性吞吐型湖泊,近年来水环境污染日趋严重,季节性枯水问题日渐加剧,沉水植物衰退日益明显。为探究现阶段鄱阳湖沉水植物衰退原因,对鄱阳湖主航道和部分碟形子湖区水质进行了调查,然后以刺苦草为研究对象,设计室外模拟实验;从生物量、形态特征、碳氮代谢等方面考察了水位和氮浓度变化对刺苦草的影响,并结合统计学方法,明确了生长环境因子改变对刺苦草的影响机理。通过文献阅读和资料分析,明晰了鄱阳湖水位
学位
粘结滑移本构模型可以反映两种材料界面协同工作的性能,国内外对于玻璃纤维增强树脂复合材料(GFRP)筋/普通混凝土的粘结滑移研究较多,对GFRP筋与工程用水泥基复合材料(ECC)的研究较少,尤其是盐碱或冻融环境下。共制作了66个GFRP筋/混凝土拉拔试件,对比了普通环境、盐碱和冻融循环条件下,GFRP筋表面形式、基体类型和混凝土强度等因素变化时,试件的破坏形式、粘结机制及粘结滑移曲线的差异。研究结果
期刊
人群在公共区域大量聚集有可能导致疫情传播或诱发踩踏等影响公共安全的严重事件,因此,有必要对公共区域人群聚集或拥挤程度进行检测和预警,从而为相关部门决策提供参考依据。但传统靠人力观察和检测不仅费时费力,准确度还受限于主观和客观因素。为此,研究通过人工智能和计算机技术实现公共区域人群拥挤检测对提高检测效率,保障公共安全与社会稳定都有着重大的科学价值与意义。公共区域的场景往往十分复杂,采集的视频或图像存
学位
在恶劣环境条件下,不论是盐湖、盐渍土,还是海洋环境,钢筋混凝土(RC)结构和钢-混凝土组合结构的耐久性一直是人们关注的重点。国内外每年用于混凝土修复和加固的费用超高,并且存在着安全隐患。针对混凝土桥墩柱腐蚀破坏和钢筋锈蚀问题,本文提出一种兼具高延伸率、耐腐蚀、可施加预应力的“不锈钢带箍增强玻璃纤维编织缠绕管混凝土柱(PSSH-BWFRP混凝土柱)”,它是一种BWFRP管柱外围施加高强预应力不锈钢带
学位
核糖核酸(Ribonucleic Acid,RNA)是一种遗传信息的载体,主要存在于生物细胞,以及部分病毒、类病毒中。RNA在生物体内行使着很多复杂的生物学功能,如自主感知代谢物浓度变化、发挥催化作用以及调控基因表达等,而这些功能的表达则是依赖其三级结构,因此RNA三级结构相关研究成为重要研究课题。RNA的构象数量随着核苷酸数量的增加呈指数增长,用核磁共振、冷冻电镜以及X射线衍射等实验方法测定的R
学位
幽默是人类独有的一种隐式情感,在人们日常生活中具有缓解紧张、活跃气氛、促进和谐交流的重要作用。幽默计算旨在使计算机具有识别和生成幽默的能力,提高人机对话系统的智能程度,具有广阔的应用前景。社交网络大量用户言论为幽默计算提供数据支持,大数据云计算的快速发展为幽默计算提供技术支持。幽默计算涵盖了幽默识别和幽默生成两个方向。幽默识别是幽默生成的重要基础,本文的研究对象为幽默识别。第一,本文提出一种新的幽
学位
围堰作为水域工程建设中的临时设施,为工程建设提供了干燥的工作场地,是水域明挖基坑、桥梁桩基等工程建设中不可或缺的临时建筑。双排钢管桩围堰由于其稳定性高、造价低等优点,近年来越来越受到工程人员的欢迎,针对双排钢管桩围堰受力特性和工作机理研究也逐渐成为研究热点。依托南昌市艾溪湖隧道工程双排钢管桩围堰,通过现场实测、数值模拟、理论计算等方法对双排钢管桩围堰受力变形特性进行研究,具体工作内容如下:(1)通
学位