论文部分内容阅读
随着计算机和信息技术的发展,统计自然语言处理技术也得到快速发展,取得了骄人的成就。电子文本自动校对的需求使得文本自动校对研究应运而生,它是自然语言处理领域重要课题。中文文本自动校对分为自动查错和自动纠错两个步骤,针对这两方面本文做了以下工作:(1)中文同音词的局部校对中文文本错误类型多种多样,本文在详细分析每种类型的特点的基础上并且结合实际发现同音词错误占了很大的比例,因此针对同音词校对做了一些工作。首先运用最简单的n-gram模型——二元模型;再结合二元模型和上下文语境;通过分析实验结果分析,在此基础上本文提出了利用语境同义词泛化的方法,改善了数据稀疏的问题,提高了系统性能。最后用真实测试文本进行测试,召回率达81.2%,准确率73.4%,纠正率88.9%。(2)中文同音词的长距离校对针对运用局部特征无法自动识别和纠正的错误,本文利用了中文固定搭配来校对这类错误。首先根据语料自动获取搭配,这是长距离校对的基础资源,校对时提取待校对文本的搭配信息,根据训练的搭配资源计算搭配支持度,比较混淆集所有词的支持度大小判断原文是否出错,并给出支持度最大的两个作为纠错意见。(3)非词错误校对本文还对非词错误的校对进行了研究。这里只针对长词错误,包括四字词、五字词、六字词,也就是常见的成语类错误。“非词”错误其实英文文本校对中的概念,本文中的“非词”是对完整正确的长词而言的,而不是汉字。针对这个问题的校对,本文采用构造错词集的方法,通过词典和大规模语料模糊匹配出“正确词错词”的组合,校对时若文本匹配到错词,系统就能给出其正确的词。试验中利用这个方法校对了高中生的作文,效果较明显。最后本文搭建了一个文本自动校对系统,主要校对上述两种错误。通过真实数据测试指出了系统的不足以及今后需要研究改进的地方。