论文部分内容阅读
应信息化工业化不断发展的需求,中文信息处理在输入、输出、检索、存储、生成、理解等方面的处理效率均有较大提高。然而,中文文本自动校对研究从开始直至今日,一直是一个亟待突破和解决的难题。由于汉语语言事实复杂,语病类型多样,文本自动校对研究需要分层级进行。本文参照绝大多数学者对汉语语病类型的研究成果,将字体错误类型单独列出来,着重分析错别字的自动检测问题。由于这一自动检测研究需要以理论研究为指导,而理论研究又是一个复杂的过程,需要分期分阶段进行探索、反思、验证。所以,本文将对中文错别字自动检测做初步的探讨,旨在做理论研究的第一步。本文主要分为六个部分:第一部分从宏观上简要概述中文错别字研究现状和成果,分析错别字研究的目的、必要性和研究重点、难点;第二部分从错别字特点、成因等角度分析错别字出错的规律;第三部分、第四部分从汉语汉字本体研究、国内外中文文本检测研究方法和信息处理技术等几个方面分析错别字自动检测研究的可行性;第五部分根据可行性分析,结合汉字出错规律及研究现状和重难点,分析中文错别字自动检测理论研究的研究步骤和流程,为今后错别字自动检测研究提供指导和参考;第六部分为全文总结及展望。