论文部分内容阅读
随着我国社会信息化水平的不断加深,新闻出版行业每天需要处理的电子文档数量逐步上升。大型报社每天都有七八十个版面,需要处理的文字信息量达几十万字。另一方面,新闻出版流程中校对工作由于种种原因一直由人工来完成。人工校对越来越成为新闻出版自动化的瓶颈。如何辅助校对人员提高校对的速度与质量,保障报纸的政治生命,对于报业集团具有巨大的直接和间接经济价值。
针对报业的实际需要,本文对目前中文文本自动校对技术、基于统计语言模型的校对技术和基于规则的校对技术进行了研究和分析,并结合这两种自动校对技术的优点,探讨了规则和统计相结合的混合校对方法,并在基于规则的自动校对技术方面,提出了一种引入易错词库的、以错误驱动的反面规则为主,正反比对的规则校对方法,并详细讨论了易错词库和规则库的组织结构、查错方法以及易错词库记录的消重等问题。在基于统计的自动校对技术方面,本文综合采用了各种基于统计模型的校对方法以降低系统的误报率。
在探讨了中文文本的自动校对方法后,针对报纸检校智能处理系统的需要,本文阐述了中文自动校对系统的详细设计方案,并针对各类错误介绍了领导人校对、用户自定义错误校对、敏感词校对和标点符号校对等各种报纸中存在的其它错误类型的校对方法。论文的研究成果,对于新闻出版单位节约成本,延迟截稿时间,增强新闻的时效性以及提高企业竞争力和信息化水平,具有重要意义和使用价值。