中文文本真词错误自动校对算法研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:bjqtq757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本校对是出版工作的关键环节,在信息检索、光学字符识别和语音识别等领域有着广泛的应用。随着信息技术和出版业电子化发展,传统人工校对的方式已无法适应迅速增长的电子文本数量。中文真词错误指一个词虽然存在于词典中但不符合上下文语境。目前传统的真词错误自动校对算法主要依据局部上下文特征,没有很好的利用词与词间的关系。近两年,有学者提出基于深度学习seq2seq算法进行文本校对,该算法的优点是可以利用词向量和LSTM,通过长短距离词的语义对目标词进行校对。但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,不可控性较强,可能会输出一些语义奇怪且无法解释的句子。首先,本文改进了传统的基于统计模型的校对算法,提出了以混淆集和N-gram语言模型为基础的CS-N-gram文本校对算法。其次,本文借鉴传统的校对算法和序列标注算法,提出了一种基于混淆集和序列标注的CS-BiLSTM-CRF文本校对算法,既引入上下文词向量对目标词进行校对,又通过混淆集对算法进行一些限制。实验结果表明,CS-BiLSTM-CRF算法与CS-N-gram算法相比,取得了更高的校对召回率和准确率。同时,本文根据错误的成因,对CS-N-gram算法的错误进行归纳,分析CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点。CS-BiLSTM-CRF算法能在邻接词未登入情况下对目标词进行校对,有效解决CS-N-gram算法最为棘手的问题,同时能结合长距离词语义进行更好的校对。但在一些可以直接通过局部上下文进行校对的情况下,由于词向量包含了多个维度的信息,导致在部分语义的判断上会有一些误差,CS-BiLSTM-CRF算法效果略逊于CS-N-gram算法。通过对CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点进行分析,本文提出了一种自动校对混合算法。该混合算法在未使用外部语料,不添加规则词典等人工干预措施的前提下,整体校对效果与单一算法相比有较大的提升,且该算法通用性较强,可直接应用于不同语料的真词错误自动校对,对中文真词错误自动校对研究有较大的意义。
其他文献
高等职业教育是为生产服务第一线培养高级应用型人才。高职毕业生一方面要具备较高的知识水平和能力,另一方面需要有较强的综合实践能力。高职课程教学一方面要提升学生知识
全球化是当今世界的特征之一,体育也已经不可逆转的在全球化了。基于这一客观事实,从全球化的角度对畲族传统体育的起源、分类进行了分析,提出适合畲族传统体育发展的时代抉
高校心理咨询师在心理咨询过程中不断地会遇到进退两难的伦理困境。如何处理这些两难的伦理困惑,成为心理咨询业必须要解决的问题。目前,我国高校心理咨询工作中的心理咨询伦
【正】 研究毛泽东的史学思想与中国马克思主义历史学的关系,不但有助于我们反思中国马克思主义历史学的成长过程,更重要的是对我们今天历史学的发展仍具有启发意义。一毛泽
以人工合成废水为底物,市政污水厂污泥为接种物,建立单室无膜空气阴极微生物燃料电池(MFC),考察其对水中有机碳和NH4^+-N的同步去除性能,并建立微生物电解池(MEC)进行性能对
传统的相位差校正法在应用于电力谐波测量时,由于频谱泄漏问题的存在,在窗函数的旁瓣衰减速度较慢时存在较大误差,而校正过程对频域解析式的依赖又限制了窗函数的选用。采用
本文阐述了概率统计课程教学中加强学生能力培养的重要性,并就如何结合教学实践培养学生的各方面能力提出了一些做法.
2010年11月18日17时36分,日月山至鑫恒330kV输变电工程正式带电投运。标志着日月山750kV变电站鑫恒间隔、日月山至鑫恒330kV输电线路工程、鑫恒330kV变电站工程所有安装、调试
根据近些年来的教学实践与经验,我们认为,计算机网络和多媒体技术的发展已为大学写作教学提供了解决上述问题的条件,因此,利用信息技术进行应用文及应用写作教学改革势在必行
目的:探讨由免疫性不孕抗体导致的不孕症的治疗效果。方法:选取该院2010年1月~2012年12月不孕不育门诊就诊的免疫性不孕抗体阳性的不孕患者154例,随机分为两2组,对照组77例给