基于序列标注模型的汉语错别字校对方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:liujun87654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络新媒体时代的到来,用户生成的海量文本充斥了互联网,这些文本可能包含大量不规范的文字表达。伴随中国综合国力的日益提高,将汉语作为外语的学习者人数也日益增加,初学者可能在学习汉语的过程中出现各种错别字。本文就汉语错别字校对任务进行探索,探究应用神经网络技术对汉语错别字进行自动检测与纠正的方法。本文内容囊括以下的三个方面:基于神经机器翻译的汉语错别字检测与纠正、基于序列标注模型的汉语错别字检测与纠正、融入拼音与笔画特征的汉语错别字检测与纠正。基于神经机器翻译的汉语错别字检测与纠正。本文将汉语错别字校对视作从错字序列到正字序列的机器翻译问题,本文提出的基于神经网络机器翻译的模型,应用了Transformer和Copy Net网络以提高检测和纠正性能。通过采用不同的Word Embedding的进一步探究预训练机制对模型性能的提升。基于序列标注模型的汉语错别字校对。由于基于机器翻译的模型对语料规模依赖较大,针对错别字语料获取困难的特点,本文采用基于序列标注模型进行错别字的检测与纠正任务,降低了模型复杂度。本文采用了Bi-LSTM以及Bi-GRU模型,从正序和逆序双向获取输入序列的语义信息,使用CRF层和Softmax函数对网络的输出进行解码,对输入序列中的汉字逐个预测正字。最终实验结果证明基于序列标注模型的错别字检测与校对的性能优于基于神经机器翻译的模型。融入拼音与笔画特征的汉语错别字校对。错别字类型可分为形近错别字和音近错别字,针对这两种错字成因,本文利用汉字中的因素和结构信息,在序列标注模型的基础上融入了拼音和笔画特征,以字符向量的方式通过卷积神经网络与字的词向量相拼接。实验结果表明融入外部特征的模型性能更优。
其他文献
抗生素广泛用于畜牧业、水产养殖业和医疗,目前对环境残留问题高度关注。由于具有保护绿色环境、单纯的反应条件、低能源消耗等优点,光催化技术在水中含有的抗生素应用领域备
科学与技术是影响科技发展的两个重要因素,二者共同推动科技的发展与进步,科学和技术的关系一直被认为是科技发展中最复杂的关系之一。目前,我国科学与技术的互动态势有待加强,剖析科学与技术内在关联、识别科学与技术互动模式,在推动科技成果转化、揭示科技发展方向方面有重要作用。现有研究基于科学-技术关联分析多停留在统计分析层面,从文献内部挖掘科学-技术之间知识关联与互动规律的相关研究较少。为此,本文以节能领域
中国特色社会主义已经进入了新时代。新时代,中华文化的传承与发展更加多元化。与此同时,世界领域的文化竞争暗流汹涌,国与国之间的文化交锋更多的体现在意识形态之间的较量。我国正面临着西方国家意识形态的入侵,经受着西方价值观对社会主义核心价值观的冲击,我们要坚决维护文化领域的安全,防止资本主义价值观的渗透。抵御西方意识形态入侵的最佳手段,就是树立起全民族的文化自信,增强民族自信心和感召力。大学生是抵御意识
亚波长结构器件已经越来越受到研究人员的广泛关注,因为当器件的尺寸为亚波长量级时,就会出现很多常规器件没有的新特性和新现象。太赫兹光谱因为其独特的特点,为大多数器件提供了一种高效、快捷的光谱分析方法,适用于多种传感领域,如生化识别、生产监控和环境监测等方面。利用亚波长结构的特性和太赫兹光谱的特点,可以设计出新型的亚波长传感器件。但是现在大多数亚波长传感器件还是不能很好地满足人们的需求,还需进一步的对
随着人工智能技术的发展以及电子化古籍文本数量的不断增加,古汉语信息处理逐渐成为一个重要的研究领域。中国古籍资源承载着璀璨的中华文明,蕴含着丰富的语言文化知识,对其进行整理、加工和研究是一项必不可少的工作。然而古籍文本体量巨大,仅通过资深学者人工的方式进行处理和分析费时费力。而利用先进技术对海量古籍文本进行自动分析,不仅可以大大减轻人工标注的负担,而且能够进一步挖掘出以往通过肉眼难以发现的文本特征和
Cu2+在我们的生活生产和生命活动中起着重要作用,同时生物体和环境中的Cu2+过载也会导致严重的影响和危害,因此对Cu2+进行检测具有重要意义。荧光探针检测方法因具有设备简单、操作方便、快速反应和灵敏度高等特点而逐渐成为Cu2+检测的重要手段。尽管已经有很多性能优良的Cu2+荧光探针被设计出来,但仍然存在一些不足,比如合成步骤繁琐、结构复杂、水溶性不足等。茚三酮具有刚性平面、水溶性好、易与氨基化合
随着功能基因组学和表观遗传学的发展,非编码RNA(ncRNA)在生命活动中起的重要作用被越来越多的发掘出来,使得ncRNA迅速成为了科学家们研究的重点。高通量测序的迅猛发展,生物
图像中的角点是描述物体特征时非常关键的信息,图像的角点检测是目标检测、目标跟踪、图像分类等复杂应用的预处理步骤。角点检测的质量直接影响后续图像处理步骤的效果,因此图像的角点检测在计算机视觉与图像处理领域中有着不可替代的作用,研究并设计具有较高准确性的角点检测算法具有十分重要的现实意义。本论文主要围绕着基于灰度变化的角点检测算法和基于边缘轮廓的角点检测方法展开研究。针对传统方法的不足,本文提出了两种
伴随着经济全球化程度的不断加深,不确定性已经成为企业经营环境的一项重要特征,如何运用“柔性”的思维来指导企业的生产经营决策,已经成为理论界和实务界共同关注的话题之
在解决实际工程问题时,通常出现某些变量中存在快慢变化的情况。这种变化率的差异性一般会导致系统建模、分析和设计中的出现高维度和病态解问题,称这一类问题为奇异摄动问题