基于深度学习的文本自动纠错研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:KAI12321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,自动文本纠错已经逐渐成为自然语言处理领域中的一个重要研究方向。自动文本纠错旨在通过计算机将一个带有语法错误的句子纠正成对应的正确句子。自动文本纠错技术在文书纠错,教育,数据预处理,语音识别后处理等领域具有广泛的应用。随着算力的大幅提升,深度学习的方法在文本纠错任务中占据了主要地位。在深度学习的帮助下,文本纠错的精度得到了大幅提升。目前主流的深度文本纠错方案分为两种:一种是基于序列到序列架构的文本纠错模型;另一种是基于序列标注的文本纠错模型。尽管主流纠错方案依靠数据驱动的方式已经能达到不错的纠错精度,但它们仍存在一些问题,例如主流序列到序列纠错模型没有加入句法结构信息,传统的模型集成策略和解码策略效果提升有限等。针对这些问题,文本进行如下研究:(1)我们提出了基于依存自注意力机制的序列到序列文本纠错模型:目前文本纠错任务中主流序列到序列纠错模型Transformer仅额外编码了句子中每个词的位置信息,但没有额外编码句法信息。这些信息需要Transformer在训练数据中学习。在机器翻译任务中,许多研究已表明将句法信息加入Transformer中能提升模型的翻译精度。作为句法结构高度相关的文本纠错任务,加入语法信息提升文本纠错能力是一个值得尝试的方法。不同于机器翻译任务,文本纠错任务中输入句子是语法错误的,直接对其进行句法解析会得到错误的句法信息。因此,文本提出了针对错误句子的依存解析器来提取错误句子中有效的依存信息。并通过提出的依存自注意力机制将依存信息结合到纠错模型中。本文在BEA-2019,CoNLL-2014和JFLEG测试集上进行实验,实验结果验证了该方法的有效性。(2)我们提出了基于序列标注和序列到序列的集成纠错模型:本文使用基于错误类型的编辑结合方案将序列标注纠错模型和序列到序列纠错模型进行模型集成,以充分结合两种不同纠错模型在不同错误类型上的纠错优势。文本使用验证集获得子模型在不同错误类型上的表现差异。在纠正时,让子模型仅对自己擅长的错误进行纠正,提升总体纠错精度。在集成模型的解码过程中,本文使用迭代纠错对句子进行多轮纠正,并且使用R2L重排考虑输出句子的双向流畅性。本文在BEA-2019和CoNLL-2014测试集上进行实验,实验验证了集成模型各个模块的有效性。最终的集成模型在BEA-2019测试集上获取了 76.8%的F0.5分值。
其他文献
<正>随着经济的发展,高中学生手里的钱渐渐多了起来,作为很快要走入社会、独立生活的庞大群体,他们的消费观及理财观值得被重视。它既可以说明社会经济的构成是否合理,也可以标示社会经济的发展是否循着健康的发展路线,同时关系着青年一代的健康成长。为此,我们长沙市一中研究性学习小组通过问卷的形式做了一项调查,旨在通过了解与调查高中生消费及理财的情况,
期刊
烯基硼化合物在有机合成中是一类重要的合成子,被广泛应用于各种交叉偶联反应。自上个世纪以来,科学家们就致力于开发各种构建烯基硼化合物的方法。其中,炔烃硼氢化或硼质子化反应是制备烯基硼化合物最直接、有效的方法之一,特别是过渡金属催化炔烃的硼氢化或硼质子化反应能够有效地控制反应的区域和立体选择性,因此铑、钯、钌、铱、钴和铜等过渡金属催化剂已经被用于硼氢化或硼质子化反应中。与其他贵金属催化剂相比,铜催化剂
学位
中式卷烟品牌中蕴含着较多中国传统文化元素,同时又结合了现当代的优秀设计理念风格。这不仅可以最大程度的满足卷烟消费者的消费需求,给消费者带来良好的视觉盛宴,更能彰显中华民族的优秀传统文化。但从当前的市场调研结果上看,市面上在销的卷烟品牌往往在包装设计时,过于注重设计工艺,而忽视了实际的品牌内涵,品牌设计往往缺乏创新的因素。随着中国在世界上地位的逐渐提升,中国文化也得到了世界各国的认同,基于“云文化”
学位
教育游戏作为有具体应用目的的严肃游戏的一个分支,已经成为辅助儿童教育的重要手段,它以“寓教于乐,以乐促学”的设计理念丰富了教学途径、创新了授课方式、激发了学习兴趣,从而受到越来越多企业、学校、老师与家长的关注,并且广泛用于儿童的能力锻炼和知识探索中,具有极高的实际应用价值。但是目前儿童教育游戏普遍存在定位不明确、内容同质化、设计较粗糙等问题。因此,在智能化时代背景下,如何运用全新的数字技术手段开发
学位
当前,我国已经顺利完成脱贫攻坚工作,正在紧锣密鼓推进乡村振兴工作。在此背景下,对全国范围脱贫攻坚的成果和经验进行系统梳理和理论总结势在必行。对贫困问题和脱贫机制的梳理总结,一方面有利于防止脱贫之后的返贫,另一方面将有利于下一步乡村振兴的顺利实施。本文即是在此背景下,对云南省梁河县M村的农业产业扶贫项目进行梳理、分析和总结,并希望借此形成对农业产业扶贫这种全国性的扶贫措施的理论反思。M村是精准扶贫工
学位
在过去的20多年中,离散数学和连续数学的研究以多种方式相互影响.例如,Laplace算子在图论和黎曼流形中有着重要的应用.图的谱与黎曼流形的谱之间的类比对谱图理论的发展有着重要的影响.Faber-Krahn定理是图论与黎曼流形之间的另一个类比.对于Rn中体积相同的任意有界区域,谱几何中经典的Faber-Krahn不等式表明球是具有最小第一 Dirichlet特征值的区域,即球具有Faber-Kra
学位
深港通的开通标志着我国A股市场与香港股市间互联互通渠道的进一步完善,是我国资本市场对外开放进程中的一个里程碑事件,对于提升我国A股市场配置效率和助推人民币国际化进程具有重要意义。同时,深港通的开通也让深圳股市与香港股市之间的联系更加紧密,加剧了波动性的传导风险,因此,深港通的开通到底对两地资本市场有何影响,是一个值得探讨的问题。本文使用Diebold和Yilmaz提出的广义溢出指数法,针对深圳和香
学位
随着5G和物联网的发展,云计算模式难以应对网络中产生的大量数据以及对延迟要求更高的新型服务,边缘计算因此应运而生。为了从海量数据中获取有价值的信息,在“边缘智能”技术的驱动下,越来越多深度学习应用被部署到网络边缘。然而,对感知数据进行分析和推理通常是资源密集型任务,而本地计算或卸载全部推理任务到边缘节点将带来大量的计算和通信开销,导致无法容忍的任务响应时间。为解决上述问题,本文对边缘计算下模型推理
学位
开发区设立以来,管委会体制作为开发区运用最广泛的一种管理模式,在开发区成为地区经济增长极的过程中发挥了重要的制度优势。经过三十多年的发展,曾被誉为“小政府、大服务”的管委会模式也积累了诸多体制弊端,而对于管委会体制的创新也存在诸多不同的改革思路与方案。以“市场化”为特点的改革是十八届三中全会以来开发区体制机制的改革思路与重点,是破解开发区管委会体制困境的重要探索。论文基于奥斯本政府再造理论并结合我
学位
物业服务作为房地产行业的衍生品,是现代社区管理不可或缺的重要组成部分。在住宅商品化改革以前,受我国所有制经济政策的影响,物业管理工作基本上由政府部门负责,其作为政府部门的一项行政职权与现在市场经济条件下的物业服务模式完全不同。从上世纪80年代,在公有住房商品化改革的背景下,我国开始探索对住宅物业由政府行政化管理向社会组织在市场经济条件下公平竞争的现代化物业服务模式转变,由于我国物业服务行业的发展历
学位