基于预训练模型的中文拼写检查

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jsjfyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的高速发展,越来越多的电子文本出现在我们的生活中。通过输入法打字进行文本产出成为了日常生活不可或缺的一部分,但随之而来的则是因误拼、错拼而产生的拼写错误,对文本质量造成了较大影响。因此如何对生成后的文本进行准确的拼写检查具有较高的现实意义。中文拼写检查是针对中文文本错误进行检测与纠正的一项工作。传统的文本校对技术面对目前的大数据量,难以进行有效处理。近年来,预训练语言模型在不同任务上获得了出色表现。本文以预训练模型为基础,结合图卷积神经网络提出了两种中文拼写检查算法,具体研究内容如下:(1)提出了一种基于全词遮蔽的中文输入法拼写检查模型(CIMSC)。CIMSC模型以Bert-WWM为基础,对其进行词表扩充,增加了大量的日常中文词组,使得模型能够对词组进行向量化表示。针对当前中文输入法全拼、简拼混用而产生的拼写错误问题,本文提出一种自定义输入法易错词混淆规则,该规则充分考虑常用二字词语之间的字音相似关系,同时对常用声母简拼、全拼组合的输入习惯进行了分析,在此基础之上构建了基于输入法的词组混淆集。随后利用图卷积神经网络对所构建的词组混淆集进行建模,充分融合了混淆词组之间的关系,使得在拼写检查时能够对词组拼写错误进行充分纠正。经实验表明,CIMSC模型相较于以往模型对于中文输入法文本的拼写检查效果提升较大,且实用性更强,证明了该模型的合理性与有效性。(2)提出了一种融合字音与词组信息的中文拼写检查方法(PSP)。以往中文拼写检查任务中主要针对单字错误进行修改,本方法在考虑单字字音相似混淆的基础之上,采用本文提出的输入法易错词混淆规则,在拼写时增添了对于词组信息的考量。经实验表明,PSP方法同以往仅考虑单字字音混淆的模型相比在拼写检查的效果上有所提升,其在进行修改时不仅考虑字音的混淆信息,还将词组之间的相似关系进行充分考虑,使得拼写检查效率得到了提高,证明了该模型设计的合理性。本文的主要创新之处在于根据输入法规则构建了词组混淆集,并据此建立字和字之间、词和词之间的连接关系,分别形成字和词的混淆图,进而利用图卷积网络进行特征抽取。实验结果验证了本文提出算法的有效性,说明其具有较好的实用价值。
其他文献
在线评论作为产品使用反馈信息,不仅可帮助消费者了解产品特征质量,也为商家与生产商提供服务与产品的改进方向。后疫情时代,健康空调需求量逆势增长,用户健康消费意识崛起,为提高产品用户满意度,深入挖掘用户对产品特征、服务的主观情感与侧重点等有价值信息十分必要。然而面对增长迅速、形式多样的海量健康空调在线评论,仅仅依靠人工方式分析处理效率低下,无法解决大数据时代文本处理与快速决策之间的矛盾。如何通过有效的
学位
随着科学技术的发展,建筑施工企业的工程技术和安全设备都得到了进一步地完善,“人因”成为导致安全事故的主要原因。建筑施工现场中班组长作为建筑工人的直接领导,对建筑工人的施工工作行为的具有直接重要影响。因此,深入探析班组长安全领导力对建筑工人的安全行为的影响,不仅有利于减少建筑工人的不安全行为,还对降低安全事故发生率具有重要意义。基于事故因果连锁理论、SOR理论和社会学习理论,引入安全意识和安全自我效
学位
以某高校宿舍建筑物为研究对象,利用FDS火灾模拟软件并通过定性分析和动态模拟结合的方法研究了不同排烟速率和火源功率下的宿舍火灾过程,从烟气扩散规律、能见度和CO浓度分布等不同角度研究高校宿舍发生火灾时的环境参数的变化规律。结果表明,不同火源功率下,烟气蔓延扩散规律大致相同;相同火源功率下,安装机械排烟装置可以明显减少烟气量,延缓烟气的扩散,有助于人员的安全疏散。可根据火灾风险分布特征,在宿舍等多层
期刊
近几年,随着建筑信息建模(BIM)、物联网、大数据等数字技术在提升建筑业生产效率、保障建筑业质量和增强建筑业竞争力等方面显示出越来越重要的作用,建筑业数字化转型已成为一种必然的发展趋势。因此,能否率先实现数字化转型也成为建筑企业寻找新的发展模式,实现高质量发展的重要驱动力。推动建筑业数字化转型,需要持续增强BIM、云计算、物联网等数字技术在建筑项目中的集成应用,不断提升建筑业在精细管理、集约管理、
学位
目的 促进带状疱疹疫苗接种管理水平的提高。方法 将问询记录的109例带状疱疹疫苗接种者相关的A组数据与卜哲妮等《2020—2021年广东省带状疱疹疫苗疑似预防接种异常反应监测分析》报道中的有关的B组数据进行对比分析。结果 A、B两组AEFI发生率分别为68.81%(75/109)和0.20%(87/44 242),两组AEFI主要为一般反应(均大于85.00%)、AEFI发生率女性高于男性、AEF
期刊
蛋白质是生物中各类细胞和组织的重要组成部分,在各项生命活动中,起到关键作用。蛋白质在生物机体内发挥作用时,大部分时候是以多个蛋白质的共同参与为基础的。这些共同参与的蛋白质所组成的功能模块,也被称作蛋白质复合物。实验方法识别蛋白质复合物,存在成本高等问题,因此有必要使用计算方法识别蛋白质复合物。在计算方法识别蛋白质复合物的领域中,之前已经提出了许多成功的方法来检测蛋白质相互作用网络中的蛋白质复合物,
学位
抚顺市是一座因煤而城、因煤而兴、矿荣城荣、矿竭城衰的煤炭资源枯竭型城市,汽车尾气、生活污水以及因煤炭矿区生产引发的地质灾害和环境污染等城市生态环境质量问题已严重制约抚顺市经济建设、城市转型与可持续发展。因此,分析抚顺市生态环境质量影响因素,评价抚顺市生态环境质量变化趋势,找出阻碍抚顺市生态环境质量提高的障碍因素,提出有针对性的提升路径是急需解决的问题。本文在分析国内外一般城市、煤炭资源型城市生态环
学位
为探究火灾发生时CO浓度、能见度、火场温度等火灾参数的时变特性.以某老旧活动中心为例,通过Revit软件构筑该建筑物理模型,利用火灾动力学(Fire Dynamics Simulator,FDS)软件Pyrosim对3种火灾工况开展数值模拟计算.研究结果表明:窗户开启比窗户关闭在火灾CO浓度、能见度、温度到达临界时间至少分别降低41.3%、11.8%、16.3%;打开楼梯间附近窗户比打开火源处窗户
期刊
医药产业关系国计民生,是“中国制造2025”和战略性新兴产业的重点发展领域,是健康中国建设的重要基础。“十四五”规划纲要将健康中国建设放在“提高国民素质,促进人的全面发展”高度来谋划,预示着医药企业成长发展的巨大机会。医药行业具有高风险、高投入、长周期等特点,在全球股市不景气及新冠病毒肆虐全球的多重背景下,如何利用债务资金助力企业长远健康发展是值得探讨的重要问题。以康恩贝为研究对象,以异质性债务视
学位
在当前建设数字中国、加快数字化发展战略愿景引领下,云计算、大数据等互联网信息技术被运用在财务管理当中,成为一件势在必行的事情。特别是对于国有企业而言,面对全面深化改革这一全新的目标,做好财会信息化建设成为当前迫在眉睫的事情。本文主要从当前国有企业财会信息化建设概述和重要性出发,分析当前阶段国有企业进行信息化建设所面临的问题,并提出解决对策。
期刊