基于seq2seq的多场景下的中文文本纠错方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:alan_w76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本纠错是指对于文本中错误的文字进行纠正,该任务是自然语言处理领域的基本任务。互联网时代,中文作为世界第二大语言,占据着重要的位置,因此对于中文文本纠错的研究至关重要。人工智能的高速发展,使得深度学习方法同样在文本纠错任务中大放异彩,目前文本纠错领域最新提出的方法都是基于端到端的seq2seq方法,该方法在英文文本纠错中取得了较好的进展。但是由于中文汉字的独特性与复杂性以及中文纠错语料的缺乏,使得传统的seq2seq方法在中文文本纠错任务中并没有取得很好的效果。本文在做了相应的实验以及分析后发现,在应对不同场景,融入相应场景下的知识或者提高数据的质量,能够提高文本纠错的准确率。从这一点出发,本文选取了两大经典场景:光学字符识别(Optical Character Recognition,OCR)和自动语音识别(Automated Speech Recognition,ASR)。基于这两个场景,就seq2seq模型在文本纠错领域的应用,提出了两种结合领域知识的不同方法,即WS2S(seq2seq based on witnesses)和KS2S(seq2seq based on knowledge)。研究发现,OCR场景下,识别原理差别较大的系统得出的文本差异性很大,并且识别结果存在互补现象,可以相互地进行学习。因此本文通过构建语言模型、基于编辑距离等方法获取丰富的witnesses,搭建多输入模型WS2S学习witnesses之间的联系,辅助中文文本的纠错。ASR场景下,提出的KS2S模型在传统的seq2seq模型的基础上,添加纠错选择模块,融入了场景下混淆集等外部知识,使得解码器在解码时具有可控性,从而可以更好地指导模型进行中文文本的纠错。实验阶段,本文针对相应场景,融入相应场景下的知识,通过一系列对比实验,验证了本文提出的中文文本纠错方法的有效性,同时也对比了所提出的两个方法的优缺点,阐述了未来可能的工作方向。
其他文献
改革开放40年多来,我国城镇化水平显著提高,城市数量从193个增加到657个,城镇化率从19.4%上升到59.58%,根据《国家新型城镇化规划(2014-2020)》,预计2020年我国即将完成城镇化中期成长阶段。随着城市化进程不断推进,在长江三角洲、珠江三角洲、京津冀等地区,城市群逐渐成为新型城镇化的空间主体。在城市群层面,如何协调好城市发展与生态保护之间的关系,优化城市群空间发展格局,是新型城
学位
珊瑚礁支持了对全球气候变化响应最敏感的生态系统之一,其地貌演化是海面变化记录的重要载体。研究珊瑚礁的地貌形态与演变,能够揭示过去的海面变化,加深对地球构造运动与海洋动力及珊瑚礁生物作用过程的理解,还能为当前南海珊瑚礁的岛礁建设提供理论基础。目前,无论是对珊瑚礁现代地貌还是埋藏古地貌的研究都以定性为主,定量研究相对匮乏,有关珊瑚礁地貌演化对海面变化响应的研究,大多系概念性认识,缺乏典型的实例与准确的
学位
河口是陆、海物质输运与能量交换的关键区域,受到径流、潮汐、风浪、环流等复杂因素的影响。长期以来,河口水动力特征、沉积物输运(悬浮泥沙的再悬浮、沉降、絮凝、输运等)、污染物质的扩散与迁移、盐淡水混合、最大浑浊带形成机制以及近底部生物化学过程等重要问题一直备受广大海洋学者的关注。本研究选取长江口为研究区,基于沉积动力与湍流等物理过程的现场观测,验证河口湍流观测的可行性,探讨这些物理过程的影响因素与相互
学位
丛枝菌根(Arbuscular mycorrhiza,AM)是植物根部与隶属球囊菌亚门(Glomeromycotina)的真菌之间形成的一种互相交换营养的共生体。AM的起源非常古老,演化至今已成为绝大多数植物保障营养供给,并增强自身抗逆性的一种不可或缺的生活方式。在过去的18年里,研究人员从不同植物中一共鉴定出了60余个AM共生调控基因,分别涉及共生信号分子的合成、识别与传导、膜融合与物质运输、以
学位
在城市化进程中,城市地区不透水面比例不断增加,透水性景观比例减少,约束了径流的蓄渗空间。传统“快排、直排”的汇流模式容易加剧排水管网系统负荷,引发内涝积水现象。透水面与不透水面镶嵌的地表景观格局特征对地表径流产生重要影响,地表不透水性景观(Total Impervious Area,TIA)中直接连接的不透水面(Directly Connected Impervious Area,DCIA)是地表
学位
蓝藻水华是危害公共健康和水生态环境安全的全球性问题。微囊藻(Microcystis)是湖泊和水库中一种最常见形成蓝藻水华的藻类,且微囊藻能够产生严重危害人类健康和水生态环境的微囊藻毒素和异味物质。因此,微囊藻水华的控制在蓝藻水华治理过程中至关重要。近些年来,国内外有很多关于溶藻细菌的报道。然而,关于真菌对微囊藻有较强溶藻活性的报道却很少。本文将一株从太湖分离到的溶藻真菌F20鉴定为嗜松蓝状菌,命名
学位
植物花器官的正常发生对于雌雄蕊的发育、配子体及种子的产生等都具有重要的生物学意义。在拟南芥早期花发育过程中,CLAVATA(CLV)-WUSHEL(WUS)空间调控通路主要负责维持花分生组织稳态,调控干细胞数量的动态平衡,保证一定数量的干细胞产生以确保四轮花器官生成。负责花干细胞适时终止的AGAMOUS(AG)-KNUCKLES(KNU)-WUSHEL(WUS)调控通路则负责程序性抑制WUS表达以
学位
非生物胁迫影响着植物的正常生长和发育,其中干旱胁迫是对植物影响最严重的非生物胁迫之一。在长期进化过程中,植物通过感知、传递和响应干旱胁迫信号,形成了抵御和适应干旱胁迫的长效机制。高粱(Sorghum bicolor(L.)Moench.)是世界上第五大禾谷类作物,具有较强的抗旱性和较小的基因组,被认为是研究作物对干旱胁迫响应以及适应性的理想植物材料。WRKY转录因子作为植物转录调控因子,在植物响应
学位
RNA干扰(RNA interference,RNAi)是调控基因表达、基因功能分析以及疾病治疗的强有力工具。随着许多治疗靶点的出现以及应用方法的发展,RNAi正在彻底改变基因治疗的方式。然而,目前RNAi在基因治疗方面的应用,仍然局限于一些重要的问题,如短时效和毒副作用。为了更好地利用RNAi,我们仍然需要新的策略。已有研究表明,Epstein-Barr病毒核抗原1(EBNA-1)和质粒复制起始
学位
代谢综合征是指一组由胰岛素抵抗引起的相互关联的临床症候群,包括腹型肥胖、血脂紊乱、高血糖、高血压和胰岛素抵抗。大量研究结果证实果糖过量摄入是引起代谢综合征脂肪肝的重要因素。课题组前期研究表明代谢综合征伴随系统性炎症和血清内毒素水平升高的现象。在肠屏障受损之后,有研究发现肠黏膜通透性增加,肠道革兰氏阴性菌等生成的内毒素主要成分脂多糖会随之进入血液,并通过肝门脉系统影响肝功能。有临床和动物实验发现益生
学位