中文文本纠错算法优化研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:chris_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的高速发展,在工作和生活中电子文档的使用越来越频繁,传统的人工校对方式已经无法满足人们的需求。中文文本纠错就是检查中文文本是否存在错误并给予纠正,这种技术在现实生活中具有广泛的实用价值,因而成为中文自然语言处理领域中的重要课题之一,研究成果已经被广泛运用于键盘输入法,文档编辑,搜索引擎以及语音识别等领域。在对国内外纠错研究做了深入调研之后,本文分别针对字词错误和语义错误做了相关研究。在字词纠错方面,本文改进了传统的序列标注算法,提出一种基于序列标注的CSC-Bi LSTM-CRF算法,该算法将纠错任务分为查错和纠正两个部分。首先通过上下文词向量对目标词进行查错,然后根据序列标注的输出用混淆集对可疑字进行替换,最后通过概率统计选出最佳候选字。在语义纠错方面,本文提出一种基于DAE-Decoder算法,该算法将纠错任务分为编码和解码两个部分,由基于Bert的预训练,根据掩码语言模型(MLM)来给输入文本中的每个初始字符产生一组替换字符作为候选字,然后由解码器根据字符相似度和语境合适度将正确的字符从多个候选字中筛选出来。在对CSC-Bi LSTM-CRF算法和DAE-Decoder算法的优缺点进行分析的基础上,本文提出了一种混合算法,经过实验验证分析,混合算法无论在准确率上还是召回率上都有所提升,体现了混合算法的可行性和优越性。且该算法的通用性比较强,可适用于对不同语料进行纠错,给中文文本纠错相关算法的研究提供一定的参考和借鉴,对NLP相关领域的研究也有较大的意义。
其他文献
几乎全国各个大中专院校学生的各种计算机操作考试成绩和等级证书成为用人单位衡量人才的基本标准之一,现有的各种计算机无纸化考试系统都是在模拟环境中进行的,对于Windows
张强(1969-),男,河北赵县人。1994年毕业于河北师范大学美术系关术教育专业,获学士学位。同年分配到石家庄师专美术系,从事中国画教学、创作与研究工作,曾多次参加省内外美术作品展
针对青岛某填海软土场区地质条件复杂、预应力管桩经验较少的特点,采用静载试验方法,对竖向抗压、抗拔和水平承载性状进行了研究,并对填海软土场地中预应力管桩容易出现的质量问题及其预防措施进行了分析,为青岛地区类似条件下预应力管桩的使用和推广提供了一定的依据和参考。
对地籍图的评价过去一般是用项目评分,容易受检查人员某些主观因素及其技术水平的影响,且不同因素的分数并不具备可加性与可比性。本文选择在抽样检查评分的基础上,运用最小二乘模糊优选模型的数学方法对地籍图进行质量评价,就能够较好地解决上述问题。
论述了利用Visual Basic 6.0开发控制点成果管理的计算机应用程序,实现了城市测量控制点成果管理、添加、修改、查询、删除等管理的计算机化,而且查询中成果和点之记直接结合,实现了图、文的对照,使得查询更加科学、便捷。
介绍主机系统超融合技术在钢铁生产基地的应用与探讨,通过集成主机系统管理对异地间服务器数据进行灾备、动态迁移。
近年来,商业银行资金业务以其经济资本占用较少、风险程度相对较低等优势受到商业银行的青睐,同时各商业银行也通过资金业务寻求新的利润增长点。而农村商业银行资金业务也于
目的:探讨三氧化二砷(As2O3)联合全反式维甲酸(ATRA)治疗急性早幼粒细胞白血病(APL)的临床效果. 方法:分析78例初治APL患者,分为治疗组40例与对照组38例.治疗组给予As2O3联合ATRA治疗
<正> 传染病患者在治疗护理工作中,是需要用一些有别于其他病人的护理方法进行医护工作。之所以这样,是因为传染病这一特殊的疾病特点造成的,而且还使得传染病患者在其感染,
会议
基于可靠性理论探讨了滨海大桥钢结构构件可靠度的评估方法,初步提出了考虑环境腐蚀作用下构件结构抗力的衰减模型,并就大桥钢结构的剩余寿命预测进行了初步探讨,最后在滨海