论文部分内容阅读
中文文本自动校对技术是计算机根据文本本身包含的信息,对其电子文本自动分析,发现、标示出错误并进行改正的过程。它涉及语言学、计算机科学、数理统计学等多门学科知识,是建立在自然语言理解技术基础之上的庞大工程。本人在详细分析和研究国内外文本自动校对理论技术及其他基础性课题的基础上,构建了一个多层次中文文本查错和纠错系统,对汉语校对方法进行了改进。该系统主要包括自动查错和纠错两个部分,首先利用基于混合算法的多模型查错系统对文本进行查错处理,在此基础上将查错算法应用到纠错排序过程,实现了查错技术和纠错技术的结合,每个模块在各章节中都进行了详细的算法设计和描述。 1.设计了一种字词级错误的自动检查模型。在分析文本字词级错误分布特点的基础上,采用四种N-gram模型对文本中出现的散串进行接续判断,并结合单字成词概率来检查文本字词级的错误。实验结果显示,该方法可以较好的查出中文文本中多字、漏字、别字等错误。 2.实现了基于模式匹配的语法搭配查错算法。制定语法搭配规则,采用模式匹配的语法查错方法来检查文本中的各种语法搭配错误。主要包括标点符号错误、关联词语或特殊词对的前后搭配错误,定语、状语的搭配使用错误等。 3.设计了一种依存句法和《知网》相结合的语义级自动查错算法。采用依存句法和《知网》相结合的方法来处理语义级错误。依存文法能对句子进行全局分析,找出文本中的所有依存搭配关系,结合《知网》知识系统,对文本中语义信息进行全面的提取,从而有效地检查出文本中的语义级错误。 4.在构造纠错知识库的基础上,实现了纠错建议生成算法。结合文本的错误特征和似然匹配方法构造了各种纠错知识库,包括错字词典、易混淆字词典、相似码词典、字驱动双向词典等来生成纠错候选建议。 5.提出了一种纠错建议的排序方法。将纠错建议的排序过程通过对每个纠错建议的查错处理来实现。在纠错时将每个候选纠错建议替换掉原错误,对该处进行查错处理并得到相应的错误系数,错误系数最小的建议即为最可能的纠错建议,从而完成文本纠错建议的排序过程。该方法使纠错和查错的研究结合在一起,将查错技术很好的应用于纠错过程。实验表明,该方法可以达到较好的文本纠错效果。 最后使用真实文本构造测试集对系统进行测试,并在此基础上对全文进行了分析总结,指出了该系统的不足之处,提出了文本校对的一些其他方法及今后需要研究改进的方向。