中文语法自动纠错系统的研究与实现

来源 :东北石油大学 | 被引量 : 0次 | 上传用户:laire723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球化的背景下,汉语成为全球最受欢迎的语言之一,对于汉语学习者而言,学习者不具有丰富的系统化的语法知识,加之在母语的影响下,难以准确地识别和修正语法错误,故中文语法纠错系统就变得十分有必要。在出版业,电子文档数量显著增加,日益趋于丰富,人工纠错方式需要消耗较多的时间和精力,利用中文语法纠错系统,可以在很大程度上降低人力成本。本文针对中文语法纠错任务,提出了一种基于混合模型的语法纠错方案。错误分为低级别语法错误和高级别语法错误,针对低级别语法错误的纠正采用N-gram与CRF模型进行纠错,面对高级别的语法错误纠正,可以将纠错任务交给深度神经网络模型来解决,中文语法纠错系统的核心在于纠错功能的实现,这主要依赖于多种深度模型的运用,rnn_attention、rnn_crf、conv_seq2seq、seq2seq_attention、Transformer、BERT,各模型可独立运行。实验所用到的纠错数据集源自2018 NLPCC公开的训练语料,通过预处理得到平行语料,取三万条句子当作测试集,剩下的作为训练语料,划分方法采用随机划分的方式,将各个句子和与之对应的正确语句构成样本对,将该语料用于训练深度神经网络模型,此外,各模型均可独立的预处理数据、训练、预测,语法错误的纠正效果显著。完成了中文语法纠错系统核心模块的构建与优化,在交互功能的实现方面的基础上,实现了B/S模式的中文语法自动纠错系统,运用到了Flask框架,Flask是轻量级可指定框架。本课题所构建的中文语法自动纠错系统可以实现加载自定义混淆集,关闭字粒度纠错等功能,可以纠正中文文本中常见的语法错误。
其他文献
分布式多跳协作网络是一种结构灵活、易架设、高抗毁、低成本的新型网络,被广泛用于物联网、军用通信、抢险等场景。其中,MAC(Media Access Control)层主要负责资源调度和网络维护,保障控制信令和数据的正常传输。目前,对于分布式多跳协作网络MAC层的研究停留在协议架构设计以及机制的理论模型分析上,难以满足工程实践的需要。在实际应用中,从提升网络性能方面考虑,现有MAC层机制仍有许多不足
疏花水柏枝(Myricaria laxiflora)因三峡工程修建失去了其在三峡库区的全部生境地而成为了濒危物种,现仅在三峡大坝和向家坝下游长江干流的河滩地有少量的种群幸存。目前残存
煤层上覆岩层动态破坏规律对矿井的合理规划和安全生产起着重要的作用。本文在大量收集现场资料及广泛开展调研的基础上,以塔山煤矿特厚煤层8012工作面为研究对象,运用现场实测数据、理论分析和数值模拟相结合的方法,从工作面围岩应力、覆岩“三带”运动规律和工作面覆岩破断机制三个方面进行理论研究,分析了特厚煤层综放开采工作面覆岩运动规律;采用FLAC3D数值模拟软件,以塔山煤矿8102特厚煤层综放开采工作面为
蛋白激酶在生物体内诸多重要的生理活动过程中扮演了重要的调控角色,例如细胞的增殖、分化、代谢、衰老以及死亡等,它也是新药研发尤其是抗肿瘤药物研发的重要靶点。通过专一的抑制剂和蛋白激酶结合从而调控蛋白激酶活性有益于诸如癌症等重大疾病的治疗。目前以蛋白激酶为靶点开发高效的选择性抑制剂药物成为新药研究的热点。激酶抑制剂根据它们与激酶作用的方式分为可逆抑制剂和不可逆抑制剂,其中不可逆抑制剂是一种共价结合抑制
视紫红质通道蛋白2(Channelrhodopsin-2,Ch R2)是一种光激活的非选择性阳离子通道蛋白,它们可以利用光对神经元的活动进行精确调控。虽然Ch R2作为光遗传学工具已经在神经科
随着我国煤炭资源需求的增加,建(构)筑物下、铁路下、水体下及承压水上(“三下一上”)压煤资源的开采已成为我国煤炭资源的有效补充。水体下多工作面开采由于涉及到重复采动及地表不同的农作物赔偿问题较一般开采复杂,本文以金源煤矿微山湖下23 下05、23 上07、23 下09及23 下07相邻多工作面开采为研究对象,采用理论分析、相似材料模拟、数值模拟及现场实测等研究手段,分析相邻多工作面重复采动覆岩变形
目前,水体污染问题越来越严重,染料工业废水和油品海运漏油是比较典型的两类污染源,处理染料废水和含油污水的方法多种多样,其中比较经济有效的还是吸附回收。本文针对以上两
我国每年由交通事故、生产安全事故以及骨类疾病等造成的骨缺损患者日益增多,因此,人类对于骨组织替换材料的需求日益增加。碳/碳复合材料(C/C)继承了碳单质材料固有的优异生
从图像中推断三维场景是计算机视觉的核心问题之一,而估计场景的深度信息是解析场景三维几何关系的重要方法。传统方法主要是基于光学几何约束或一些环境假设,比如光照变化、纹理特征和运动中恢复结构等,这些基于一定先验信息的方法日趋成熟。由于深度学习能够提供相对准确的先验信息,所以使用深度学习从图像中预测深度信息也成为计算机视觉领域的研究热点之一。该课题的关键在于如何使用深度学习的方法,从单幅或者多幅图像中获
降水是气候变量,反映了地球大气的动力和热力过程,也是引发自然灾害和极端事件的基本驱动因素。降水的监测和记录对气象部门以及其他社会部门生产活动有着重要的影响。地面降