论文部分内容阅读
OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机等)通过检测纸质文档字符暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。当前,OCR技术已经成为纸质文档转化为电子文档最重要的手段之一。在转化过程中,当前的OCR技术并不能保证处理后的电子文档内容100%的正确,这就需要对识别后文档进行检查和校对。本课题来源于“十一五”国家科技支撑平台重点项目——“视障者阅读辅助器具的研制”。该阅读辅具是通过OCR技术和语音合成技术来实现印刷体文字向语音输出转换。所以,本课题需要研究的校对对象是OCR识别错误。课题统计和分析了常见的OCR识别错误特点,并对其进行了重新分类。然后,学习和研究了当前的中文文本校对算法,并提出了一种“基于窗口技术的改进型中文文本自动校对算法”,改进型算法充分考虑了OCR识别错误的特点以及课题应用平台的特点。相比于基础算法,新算法做出的改进主要包括在校对预处理阶段选取了一种效果更好、更成熟的中文分词系统即ICTCLAS分词系统;在文本自动查错阶段,加强了“散串”技术的应用以提高查错效率;在文本自动纠错阶段,则放弃了基础算法中的纠错方法,因为其采用同音字特征构造混淆集,不适用于OCR识别错误,改进型算法采用了待校原文与字驱动双向词典相结合的方法来提供纠错建议。最后,在Windows平台下,用C++语言在Visual C++6.0开发环境中实现了一个中文文本自动校对实验系统。然后对实验系统进行测试,测试结果表明采用改进型算法的实验系统具有更好的召回率和精确率,但是在纠错率方面,表现还是略显不足,需要频繁的与用户交互由系统用户来给出“纠错建议”。在测试结果分析完毕后,针对课题研究、实验系统设计以及论文撰写过程中遇到的问题和困难进行了总结,最后,针对中文文本自动校对的发展前景进行了展望!