基于深度学习的中文语法错误诊断研究

来源 :辽宁科技大学 | 被引量 : 0次 | 上传用户:boge09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本纠错由来已久,研究方向可大体可分为拼写纠错和语法纠错,自中文语法错误诊断大赛(Chinese Grammatical Error Diagnosis,CGED)任务集首次提出,并将中文纠错归纳为缺失、选择、冗余、排序四种错误,围绕CGED数据集并结合深度学习模型便成为了文本纠错的研究热点。而CGED最新的研究进展中,其中获得最优效果的模型采用了将Res Net集成到编码器中的多层双向Transformer编码器,并在检测级、识别级、定位级、纠错级四个基准中分别获得了F1值0.9122、0.6736、0.4041、0.1891的成绩。本文主要研究定位级,从最新研究也可以看出,在定位上效果仅能达到F1值0.4041的效果,完全不具备应用性,可见中文语法错误诊断仍然有很大的提升空间。其中效果得不到太大提升的主要原因在于中文文本作为非结构化数据,具有极其复杂的语法格式和各种语言表达特性,让计算机理解中文本身就是一项困难的研究。而目前广泛采用的词向量技术来提取中文文本特征也因特征缺失,欠拟合等问题导致效果不佳。此外机器学习在序列标注任务下存在的特征学习不足等问题,对中文语法错误诊断的效果进一步弱化。针对以上问题本文将中文语法错误诊断问题转换为序列标注问题,并结合统计语言模型、词嵌入技术和深度学习模型来提高模型的效果,最终对四种错误类型的检错都取得了较为稳定的效果。本文在原CGED的数据集基础上通过对相关政法公众号推文的爬取,获取了海量的政法语料文本,通过对清洗后的政法语料文本进行N-Gram模型的训练,最终得到效果较好的用于政法领域文本拼写纠错的模型。本文首次提出基于XLNet BILSTM CRF的中文语法检错模型,并优化了BERT Bi LSTM CRF模型。通过设计多组传统的序列标注方法来进行对比实验,其中对比实验包括:CRF、HMM、One Hot Bi LSTM CRF、BERT CRF。相比之下,提出和优化的模型效果有显著提升,分别采用BERT和XLNet词嵌入方式的BILSTM CRF模型对中文文本的“选择错误”的定位级最优F1值分别达到0.3402和0.5455的成绩,后者仅在“选择错误”上超过了国际最新研究中F1值0.4041。并且其在识别定位准确率上也达到了0.75的效果。最后通过对N-Gram模型和深度学习模型的集成和优化,结合前后端技术搭建完成了中文文本检错系统。
其他文献
个性化推荐算法是解决信息超载问题的有效方法,网络分布式表示学习由于其捕获网络节点间潜在联系和学习节点表示的优越性能成为研究个性化推荐算法的热门方向。如何挖掘并有效利用推荐网络中的各种信息是提升基于网络分布式表示学习的个性化推荐算法性能的关键。现有的基于网络分布式表示学习的个性化推荐算法大多更关注于网络的结构信息,往往忽略了网络节点上丰富的属性信息以及与节点相关联的非结构文本信息所蕴含的丰富语义。为
学位
冰川是全球气候变化的指示器,卫星测高技术为冰川表面高程变化观测提供了有效手段。本文基于多源高分辨率DEM数据,综合利用欧空局微波雷达测高卫星CryoSat-2(Ku波段)、美国国家航空航天局激光雷达测高卫星ICESat(532 nm和1064 nm)以及ICESat-2(532 nm)产品,分别采用伪平面拟合法、曲面拟合法和DEM差值法,对自2003年以来近18年的祁连山老虎沟区域、水管河区域、岗
学位
聚四氟乙烯(PTFE)是密封领域中应用最为广泛的一种密封有机材料,但其磨损性的缺陷一直严重制约其发展。因此,国内外研究学者们都在找寻可以满足各行业应用的填料,从而改善PTFE材料本身耐磨性能差等缺陷。本论文主要采用以PTFE为基体,碳纤(CF)和二硫化钼(MoS2)为填料,采用机械搅拌法混合,利用冷压烧结等工艺制备了一系列PTFE基复合材料。具体研究结果如下:(1)对模压成型压力关于CF/MoS2
学位
印染行业的发展逐年加快,而作为其副产物,由印染废水带来的污染等环境问题也在加重,利用纳米氧化锌来处理印染废水目前已得到了人们广泛的重视。氧化锌作为常见的n型半导体之一,室温下带隙为3.37 e V,在一定强度的紫外光下将产生电子跃迁,并进一步生成具有强氧化性的自由基,几乎能够将全部有机物矿化分解。然而,单纯的氧化锌颗粒吸附有机物的能力较弱,响应光的波长范围较小,且受光激发产生自由基的效率较低,不足
学位
随着《关于全面深化课程改革,落实立德树人根本任务的意见》、《中国高考评价体系》、《普通高中生物学课程标准(2017年版2020年修订)》等相继颁布,标志着中学生物学教育教学改革进入以核心素养为导向的新阶段,高质量完成这一任务是一线教师新的使命。生物学习题作为课堂教学的有机组成部分,对于知识的落实和学生学科核心素养的培育具有重要意义。然而,传统的习题过于注重知识的巩固、练习,这种模式的习题难以提升学
学位
群机器人协作围捕指的是采用多个个体能力有限的同质机器人通过协作与协调以完成对灵活性高、相对危险目标的包围或控制。它不但具有重要的理论价值,在群体对抗、重点区域的守护与关键目标的保卫等方面也具有广泛的应用前景。本文受雁群结阵迁徙以及士兵结阵御敌与困敌的启发,首先针对无障碍环境下的自组织围捕问题提出了一种链阵方法。在该方法中,个体机器人有如下三种基本的工作状态:发出任务招募、协作形成链阵、巡逻。发出招
学位
随着新课标的实施,围绕全民核心素养建设的各个项目被积极推进。核心素养也正式转移到一线教师的教学实践中,围绕核心素养的课程改革也正在进行。为了充分培养和提高学生的核心素养,教育者尤其是在一线的物理老师们都应该认真思考如何在核心素养下教学。我国一些研究人员在研究中发现以单元为出发点,合理地进行教学设计和明确课时教学任务,有利于提高学生的各学科核心素养。因此,在实践中采用单元教学设计是必要的。单元课堂教
学位
旅游小城镇在现阶段旅游业中扮演着举足轻重的角色,在国家政策的大力支持下,稳步发展。旅游小城镇不仅满足了城镇居民的度假旅游需求,还促进了城镇的多元化发展,提高了地区经济的发展水平。基于新型城镇化的背景下,本文分析了新建镇旅游小城镇的发展基础,针对缙云新建镇现有旅游资源,探讨、研究其旅游小城镇的发展影响因素,得出多种适合新建镇的旅游小城镇发展模式,试图对同类型旅游小城镇的发展提出具有建设性的思考与借鉴
学位
近年来,随着我国经济以及智能计算技术的不断进步,以大数据云计算为代表的现代化物流业正在蓬勃发展,其中物流配送服务是影响物流业发展的重要部分。通过智能计算分析出合理的配送优化路径,成为新形势下物流业未来发展创新的趋势。物流配送是一种以道路为服务对象的弧路径优化问题,在很多现实应用中,为了符合实际需求会在问题基本模型的基础上增加多种约束条件,转化为带容量约束的弧路径问题(capacitated arc
学位
随着世界经济的快速发展,英语的使用将会越来越频繁,小学学段作为英语学习的启蒙阶段,主要的英语学习内容以词汇和学习兴趣为主,但小学阶段常有学生抱怨英语词汇的学习枯燥且乏味,而教育游戏由于其即有教育性,又有游戏性的特征,能够有效的帮助学生提升学习兴趣,改善学习动机。因而英语词汇教育游戏能有效地帮助学生提升学习兴趣,是解决英语词汇学习过程枯燥乏味的良方。本研究以游戏化教学理论为指导,旨在设计与开发一款小
学位