中文文本自动查错与纠错模型的构建及实现

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:lbfjm78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本自动校对技术是计算机根据文本本身包含的信息,对其电子文本自动分析,发现、标示出错误并进行改正的过程。它涉及语言学、计算机科学、数理统计学等多门学科知识,是建立在自然语言理解技术基础之上的庞大工程。本人在详细分析和研究国内外文本自动校对理论技术及其他基础性课题的基础上,构建了一个多层次中文文本查错和纠错系统,对汉语校对方法进行了改进。该系统主要包括自动查错和纠错两个部分,首先利用基于混合算法的多模型查错系统对文本进行查错处理,在此基础上将查错算法应用到纠错排序过程,实现了查错技术和纠错技术的结合,每个模块在各章节中都进行了详细的算法设计和描述。  1.设计了一种字词级错误的自动检查模型。在分析文本字词级错误分布特点的基础上,采用四种N-gram模型对文本中出现的散串进行接续判断,并结合单字成词概率来检查文本字词级的错误。实验结果显示,该方法可以较好的查出中文文本中多字、漏字、别字等错误。  2.实现了基于模式匹配的语法搭配查错算法。制定语法搭配规则,采用模式匹配的语法查错方法来检查文本中的各种语法搭配错误。主要包括标点符号错误、关联词语或特殊词对的前后搭配错误,定语、状语的搭配使用错误等。  3.设计了一种依存句法和《知网》相结合的语义级自动查错算法。采用依存句法和《知网》相结合的方法来处理语义级错误。依存文法能对句子进行全局分析,找出文本中的所有依存搭配关系,结合《知网》知识系统,对文本中语义信息进行全面的提取,从而有效地检查出文本中的语义级错误。  4.在构造纠错知识库的基础上,实现了纠错建议生成算法。结合文本的错误特征和似然匹配方法构造了各种纠错知识库,包括错字词典、易混淆字词典、相似码词典、字驱动双向词典等来生成纠错候选建议。  5.提出了一种纠错建议的排序方法。将纠错建议的排序过程通过对每个纠错建议的查错处理来实现。在纠错时将每个候选纠错建议替换掉原错误,对该处进行查错处理并得到相应的错误系数,错误系数最小的建议即为最可能的纠错建议,从而完成文本纠错建议的排序过程。该方法使纠错和查错的研究结合在一起,将查错技术很好的应用于纠错过程。实验表明,该方法可以达到较好的文本纠错效果。  最后使用真实文本构造测试集对系统进行测试,并在此基础上对全文进行了分析总结,指出了该系统的不足之处,提出了文本校对的一些其他方法及今后需要研究改进的方向。
其他文献
随着嵌入式Linux操作系统数据处理能力、存储能力的进一步增强,嵌入式平台上的数据备份系统越来越受到人们的重视。目前在嵌入式Linux操作系统中提供备份和还原功能的都是软
增值业务计费系统是增值业务平台重要的组成部分之一,它负责收集用户使用增值业务资源和服务的相关数据,并利用这些数据完成用户使用增值业务应缴纳费用的计算,然后按照增值
稀疏算法是一类广泛存在于各类应用中的核心算法。在目前的高性能计算机系统上,稀疏算法的浮点效率经常不到10%,影响了高性能计算机计算能力的发挥。本文在传统应用领域和新兴应
随着科技的进步和人们生活质量的提高,人们对工作便利性的要求越来越明显,无线显示适配器应运而生。无线显示适配器可以摆脱繁琐的线缆束缚,满足人们便利性的要求;其视频监控设备
进程演算从20世纪80年代Milner的CCS交互模型开始已有30年光景.期间成百上千的模型和等价关系被提出来,研究也深入了相关的各个分支。但是在完备交互模型上研究计算理论是一
随着计算机信息技术的高速发展,企业级信息化管理系统的概念被越来越多人所熟知,大量软件系统暴露出不易扩展、维护困难的弱点。设计模式的出现有效的缓解了这个问题,通过学
多方协同应用涉及到多个主体、多系统间的流程协作与信息交互,并且一个完整的业务流程也有可能涉及多个子流程,因此多方协同应用的业务流程一般都非常复杂。而如今多方协同应
覆盖表生成是组合测试研究的热点之一,其中贪心算法因为生成速度快,生成的覆盖表规模小而得到人们青睐。目前研究人员已经提出了很多基于不同策略的贪心算法,如AETG、TCG、DDA等
2001年万维网之父蒂姆?伯纳斯-李和他的同事在《科学美国人》上面发表的一篇科普性的文章《The Semantic Web》标志着语义万维网的诞生。语义万维网至今己经发展了十几年的时
在软件测试中,测试充分是软件质量最可靠的保障,也是软件测试的最终目标。在白盒测试中,路径测试思想保证系统中的每一条路径至少被执行一次,以达到完测试的目的。基于语句,路径的