【摘 要】
:
中文语法错误更正是近年来兴起的自然语言处理任务之一。语法错误包括一些使用错误及不符合语言习惯的错误。语法错误更正是针对于第二外语学习者书写的文本来说的。对于第二外语学习者来说,学习中文写作是必不可少的一项任务,也是比较困难的一项任务。通常,语法错误更正依赖于人工,学习者通过老师或者同学对文本的修改得到反馈,这是费时费力的,并且文本很难得到及时的更正。当前随着将中文作为第二外语的学习者越来越多,需要
论文部分内容阅读
中文语法错误更正是近年来兴起的自然语言处理任务之一。语法错误包括一些使用错误及不符合语言习惯的错误。语法错误更正是针对于第二外语学习者书写的文本来说的。对于第二外语学习者来说,学习中文写作是必不可少的一项任务,也是比较困难的一项任务。通常,语法错误更正依赖于人工,学习者通过老师或者同学对文本的修改得到反馈,这是费时费力的,并且文本很难得到及时的更正。当前随着将中文作为第二外语的学习者越来越多,需要更正的文本数量的大量增加,人工的语法错误更正是不能满足需求的,因此建立自动的语法错误更正系统是必要的。随着大型的语料库不断开放,建立自动的中文语法错误更正模型逐渐被人们所重视。语法更正模型最初先使用语法错误检测模型检测错误再更正语句。随着深度学习的不断发展,序列到序列模型的应用,语法错误更正模型也发展成为直接进行更正的端到端的模型,这也让语法错误更正任务有了更大的挑战与前景。当前,中文语法错误更正任务依旧存在一些难点。中文句子结构错误的更正是难点之一。结构性的错误经常和句子表达的语义相关联。由于书写者的表述不清而导致语义不清,这使得结构性的错误很难被更改。数据不平衡是另一个难点。数据中的句子虽然是包含语法错误的,但是在一个语句中,正确的字相比于错误的字还是更多的,这使得训练过程可能存在偏差。本文主要研究中文语法错误更正任务中的技术,对不同的语法错误更正模型做了详细的研究与讨论。论文的主要研究工作如下:首先,对现有的中文语法错误更正任务中使用的技术进行分析。总结当前中文语法更正任务中的常用的词向量表示方法,基于神经网络的序列到序列模型及注意力机制,分析各模型适合的使用情况及优缺点,为后文语法错误更正模型的改进与分析奠定基础。其次,对非端到端中文语法错误更正技术进行研究,提出了两种在语法错误检测模型上词向量的优化方法,加入文本信息的词向量及文本化词向量,解决中文中存在的字或词的歧义问题。实验结果表明,两种优化方法相比于基础的语法错误检测模型都有更好的表现。最后,对端到端中文语法错误更正技术进行研究,提出了共享词向量及策略梯度(policy gradient)两种优化方法,并且提出基于生成对抗网络的语法错误更正模型。共享词向量使更正模型更符合中文语法错误更正任务中源语言与目标语言一致的情况。策略梯度用于解决文本生成中存在的不可微分的问题。基于生成对抗网络的语法错误更正模型用于解决模型输出的语句不符合中文语言习惯的问题。实验结果表明,加入两种优化方法及使用生成对抗网络的模型相比于基础的语法错误更正模型都有更好的表现。
其他文献
近年来,随着大数据技术和计算能力的不断提升,人工智能技术发展迅速,人工智能类产品也迎来了广泛的关注和研究,其中结合自然语言处理技术的智能问答机器人系统的需求也随之增多。目前如微软小冰等基于开放领域的聊天机器人已经逐渐投入市场,解决了部分情感助手的需求。然而,针对特定领域的问答系统需要专业人员的参与,问答回复准确率要求更高,虽然有着日益迫切的需求但是离真正的使用还有一段距离。多轮交互问答机器人能够根
金属铍因其优异的性能在核工业、武器系统、航空航天工业等领域都有着十分重要的应用。然而由于缺乏对形变铍组织软化行为研究,目前我国关于金属铍的压力成型技术发展较为落后。静态再结晶是软化冷变形金属,重新获得无畸变等轴晶的重要手段。现代再结晶理论指出,再结晶过程中各参数的控制将对金属再结晶行为及组织调控有着深刻的影响。本文以热压金属铍为研究对象,探究低温(低于450℃)形变铍退火过程中的静态再结晶行为,揭
东周上承三代下启秦汉,是中国历史从古代到中世纪的社会转型期。这段历史自来倍受重视,研究成绩硕果累累。但从社会转型的视角观察,仍有不少未发之义值得探讨。东周社会转型
语音是人们传递情感和信息交流最便捷高效的方式。语音情感识别是依据给定的语音信号,自动地识别分析出语音中所包含情感的技术。语音情感识别在医疗、教育、刑侦等领域应用
货币政策是国家进行宏观调控的最主要也是最重要的手段之一,其有效的实施能够对一个国家的总产出产生作用。在货币政策传导的过程中,信贷渠道处于货币政策传导渠道的主导地位,在传导过程中起到了非常关键的作用。在金融危机以及经济形势变化的大环境下,信贷渠道在货币政策传导的过程中的宏观及微观主体或多或少地受到影响,分析各影响因素对货币政策信贷渠道传导的作用,探究信贷传导效应有利于提高货币政策传导的效力。本文首先
冠心病主要是指冠状动脉血管因粥样硬化病变而逐渐变窄乃至堵塞,从而影响心肌细胞,使其出现缺血缺氧性坏死。对于该病的早期预测及干预是当前临床研究的热点,脂蛋白相关磷脂
随着我国城镇化和现代化的高速发展,大量的新生代农民工涌入城市工作和生活。新生代农民工市民化的意愿强烈,但是由于受到城乡二元制度的制约,他们无法完全享受到地方城市政
统计过程控制(SPC)是全面质量管理的重要内容,是企业实施产品或服务质量管控的关键手段,其应用效果决定了企业在产品或服务市场的核心竞争力。传统控制图作为SPC的核心工具,因其能够探测生产过程异常而得到了广泛应用,而与机器学习方法相结合的控制图模式识别技术,进一步强化和扩展了控制图的异常探测与识别能力,开启了控制图发展的新阶段,成为了近年来质量控制领域的研究热点。本文提出将一种深度学习方法——长短时
表情识别是一种根据人脸图像获取面部表情信息,从而判定生物面部情绪的一项技术。作为一种易用性极强的生物特征识别技术,表情识别在社交机器人、美颜方案选择和驾驶员疲劳监视等许多人机交互的场景中都有着广泛的应用。近几年来,人工智能技术的蓬勃发展推动着表情识别方案的更新换代,基于深度学习的人脸表情识别也受到了学术界和工业界的广泛关注。动态表情识别作为表情识别的一个研究分支,旨在为视频序列标记出最合适的情感标
目的:回顾性分析allo-HSCT后经临床诊断上消化道GVHD的特点、转归及预后分析,探索小剂量皮质激素治疗的可行性。方法:2003年7月至2008年12月在我科住院的91例血液