基于深度学习的文本语法自动纠错模型研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaominjie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和普及,电子文本的数量日益增加。电子文本的爆炸式增长造成了文本质量的下降,而基于人工进行审查和评估明显是不现实的。因此,文本语法纠错任务近年来吸引了越来越多的目光。得益于深度学习的飞速发展,机器翻译技术也取得了一系列重大突破,使得序列到序列网络在文本纠错任务中得到广泛应用。本论文设计了一种将统计机器翻译和神经机器翻译相结合的方法,主要工作如下:第一,预处理训练语料。预处理NLPCC 2018中文语法错误纠正(Chinese Grammatical Error Correction,CGEC)共享任务训练集,用于训练模型。预处理中文维基百科语料,用于训练中文词向量和N-Gram语言模型。预处理HSK动态作文语料,用以进行数据扩增。预处理SIGHAN 2013 CSC语料,用于拼写错误纠正模型。第二,本论文将统计学习与深度学习相结合,其N-Gram语言模型用来解决中文拼写错误。首先使用训练好的模型对语句中的词打分,将得分低的位置视为待纠错位置,基于SIGHAN 2013 CSC构建候选集,选择困惑度最高的句子。第三,本论文使用深度学习模型Seq2SeqAttention模型和Transformer模型来消除深层次错误,并通过数据清洗、数据扩增、子词级别建模、课程学习(curriculum learning)策略和遮蔽序列到序列(masked sequence to sequence)策略来提升模型性能。最后,采用一种模型集成的方法,将各个模型的输出送入N-Gram语言模型进行打分,选择得分最高的作为最终输出。第四,本论文在NLPCC 2018官方基准测试集上对本文设计的模型进行测试,实验证明了所采用的方法均提高了模型性能。其中模型集成方法性能最好,其F0.5值相比北京大学计算语言学研究中心得分从21.16提高到了26.14,提升了4.98个百分点,证明本文提出的模型有效。
其他文献
近年来,咸阳市认真贯彻落实国家有关信息化发展的一系列方针政策,紧紧围绕建设富裕文明和谐新咸阳的目标,坚定不移地实施以信息化带动产业化、工业化、城镇化,牢固树立创新为先、
互联网在中国已经存在了二十多年,这二十多年间,社会面貌日新月异,互联网发展成为大众工作、学习和生活的常用工具。一些公司伴随着互联网技术的进步而逐渐壮大,网易就是其中的代表。发展至今,网易已经形成了一套成熟的业务模式,并且其价值创造成果显著。查找并分析关于我国互联网行业相关资料后,发现目前很多互联网企业随着科学技术的发展愈加具备创新性,无形资产以及品牌价值等非实物资产对于互联网企业越来越重要。我国互
尽管酝酿已久、反复修改的城市医改试点的指导意见迟迟未能出台,但关于此次国家城市医改试点的主体思路其实在业界已经不再是秘密.通过一些公共论坛上相关人士的不断吹风,敏
企业困难时期,普遍存在负债沉重和资金不足问题。面对这种状况,如何理财,使企业走出困境,已成为企业经营管理者的当务之急。因此,笔者认为,首先要对企业现行的经营状况做出正确的判
实施“走出去”战略以来,我国对外投资态势快速发展,在保持一定速度和规模的同时,质量和水平也不断提高,国际竞争力越来越强。但是,我国“走出去”企业也普遍面临着来自国际和国内的税收风险,突出表现为:对我国政府及部门支持企业境外投资的政策和审批规定了解不够;对投资国的法律环境了解缺少相关渠道;对有关国际税收协定等规范性的国际经济法缺乏了解。为更好的服务国家“一带一路”建设,充分发挥税收的职能作用,提升对
目的:应用一系列生物细胞技术检测方法研究人参皂苷对氯化钴诱导H9c2细胞缺氧损伤的保护作用,分别从线粒体膜电位、氧化应激、有氧呼吸、ATP、NAD+、SIRT1/PGC1α、糖摄取和
试析直接法和间接法编制现金流量表的选择陈平现金流量表是一种反映企业现金收入和支出的报表。从发展趋势看,此表有可能取代财务状况变动表而成为三大会计报表之一。这是因为
科研选题是开展任何一项科研工作的第一步,也是最关键的一步。本文对科研选题的工作特点和步骤,选题的原則与艺术等各方面作了较为全面的阐述,可供广大科研工作者思虑科研选
【正】 研究所是从事科研活动的实体和基层单位。为了促进研究所更好地出成果、出人才、出效益,就需要对其进行考核评价。随着科技管理体制的改革,研究所自主权的扩大,上级管