论文部分内容阅读
信息化社会的一个主要特点就是高速、海量、多种信息的传递,在这些海量的信息里充斥着大量的错误,严重影响了信息传输的质量和效率。借鉴已有研究成果的基础,本文对于深入研究了中文文本编辑错误的检测和校对方法,详细阐述了文本编辑错误检测和校对的关键问题、解决方案、算法设计原理等方面。中文文本编辑错误检测和校对模型分为检测错误与改正错误两部分,理论分析与实验表明,二者分开有助于解决错误检测和校对目标中的两个关键问题,一是混淆集大小与统计语言模型的时空复杂性之间的矛盾,二是训练预料规模造成的数据稀疏现象与文本错误造成的数据稀疏假象。在文本编辑错误的检测方面,结合前人已有的一些研究成果,在详尽分析中文文本校对任务所面临的数据稀疏问题的特殊性进行的基础上,提出了解决数据稀疏的三种数据平滑策略,即文本窗口缩小、平滑延后和聚类词。提出了一种前后N文字法文本窗口的自动检测方案,在对待检测字符特性分析的基础上,立足于它的局部本文语境意义,考虑前项概率和后项概率,结合三种数据平滑策略的优势,较好地解决了模型执行的时间复杂度和空间复杂度问题。实验数据验证,前后N文字法的检测机制在错误报告率,漏报率等指标上表现更优。在文本编辑错误的改正方面,介绍了最小编辑距离的概念,解释了易混淆集的作用,采用为易混淆集中的不同字符赋予不同的权重的策略,由改正错误模型从中筛选出权重较大的,作为使改正建议的正确字符。最后进行了实验验证比较,与黑马文本校对系统和基于EricMays平均分配权重思想的校对模型相比,字符权重动态分配的改正错误方案的性能更优。为验证本文提出的检测错误和改正错误模型的可行性和执行效率,本文进行了实验比较。实验数据表明,本文基本完成了预期目标,实现的模型的性能在已有的成果基础上有显著的提高。