基于深度学习的文本语法自动纠错模型研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaominjie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和普及,电子文本的数量日益增加。电子文本的爆炸式增长造成了文本质量的下降,而基于人工进行审查和评估明显是不现实的。因此,文本语法纠错任务近年来吸引了越来越多的目光。得益于深度学习的飞速发展,机器翻译技术也取得了一系列重大突破,使得序列到序列网络在文本纠错任务中得到广泛应用。本论文设计了一种将统计机器翻译和神经机器翻译相结合的方法,主要工作如下:第一,预处理训练语料。预处理NLPCC 2018中文语法错误纠正(Chinese Grammatical Error Correction,CGEC)共享任务训练集,用于训练模型。预处理中文维基百科语料,用于训练中文词向量和N-Gram语言模型。预处理HSK动态作文语料,用以进行数据扩增。预处理SIGHAN 2013 CSC语料,用于拼写错误纠正模型。第二,本论文将统计学习与深度学习相结合,其N-Gram语言模型用来解决中文拼写错误。首先使用训练好的模型对语句中的词打分,将得分低的位置视为待纠错位置,基于SIGHAN 2013 CSC构建候选集,选择困惑度最高的句子。第三,本论文使用深度学习模型Seq2SeqAttention模型和Transformer模型来消除深层次错误,并通过数据清洗、数据扩增、子词级别建模、课程学习(curriculum learning)策略和遮蔽序列到序列(masked sequence to sequence)策略来提升模型性能。最后,采用一种模型集成的方法,将各个模型的输出送入N-Gram语言模型进行打分,选择得分最高的作为最终输出。第四,本论文在NLPCC 2018官方基准测试集上对本文设计的模型进行测试,实验证明了所采用的方法均提高了模型性能。其中模型集成方法性能最好,其F0.5值相比北京大学计算语言学研究中心得分从21.16提高到了26.14,提升了4.98个百分点,证明本文提出的模型有效。
其他文献
互联网在中国已经存在了二十多年,这二十多年间,社会面貌日新月异,互联网发展成为大众工作、学习和生活的常用工具。一些公司伴随着互联网技术的进步而逐渐壮大,网易就是其中的代表。发展至今,网易已经形成了一套成熟的业务模式,并且其价值创造成果显著。查找并分析关于我国互联网行业相关资料后,发现目前很多互联网企业随着科学技术的发展愈加具备创新性,无形资产以及品牌价值等非实物资产对于互联网企业越来越重要。我国互
实施“走出去”战略以来,我国对外投资态势快速发展,在保持一定速度和规模的同时,质量和水平也不断提高,国际竞争力越来越强。但是,我国“走出去”企业也普遍面临着来自国际和国内的税收风险,突出表现为:对我国政府及部门支持企业境外投资的政策和审批规定了解不够;对投资国的法律环境了解缺少相关渠道;对有关国际税收协定等规范性的国际经济法缺乏了解。为更好的服务国家“一带一路”建设,充分发挥税收的职能作用,提升对
目的:应用一系列生物细胞技术检测方法研究人参皂苷对氯化钴诱导H9c2细胞缺氧损伤的保护作用,分别从线粒体膜电位、氧化应激、有氧呼吸、ATP、NAD+、SIRT1/PGC1α、糖摄取和