报纸检校智能处理系统中的中文文本自动校对的设计和实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:leilei2740
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国社会信息化水平的不断加深,新闻出版行业每天需要处理的电子文档数量逐步上升。大型报社每天都有七八十个版面,需要处理的文字信息量达几十万字。另一方面,新闻出版流程中校对工作由于种种原因一直由人工来完成。人工校对越来越成为新闻出版自动化的瓶颈。如何辅助校对人员提高校对的速度与质量,保障报纸的政治生命,对于报业集团具有巨大的直接和间接经济价值。 针对报业的实际需要,本文对目前中文文本自动校对技术、基于统计语言模型的校对技术和基于规则的校对技术进行了研究和分析,并结合这两种自动校对技术的优点,探讨了规则和统计相结合的混合校对方法,并在基于规则的自动校对技术方面,提出了一种引入易错词库的、以错误驱动的反面规则为主,正反比对的规则校对方法,并详细讨论了易错词库和规则库的组织结构、查错方法以及易错词库记录的消重等问题。在基于统计的自动校对技术方面,本文综合采用了各种基于统计模型的校对方法以降低系统的误报率。 在探讨了中文文本的自动校对方法后,针对报纸检校智能处理系统的需要,本文阐述了中文自动校对系统的详细设计方案,并针对各类错误介绍了领导人校对、用户自定义错误校对、敏感词校对和标点符号校对等各种报纸中存在的其它错误类型的校对方法。论文的研究成果,对于新闻出版单位节约成本,延迟截稿时间,增强新闻的时效性以及提高企业竞争力和信息化水平,具有重要意义和使用价值。
其他文献
随着技术的发展,在航天领域,软件在型号系统中得到了广泛的应用。软件失效会直接导致严重的事故甚至灾难。为提高软件的可靠性,对于软件测试而言,需尽可能多的发现软件中可能
呼叫中心(Call Center)作为一种利用现代通信手段和计算机技术来处理话务量的全新现代化服务方式,越来越被众多的企业重视。它的发展主要经历有三个阶段,从最初的人工热线系
随着计算机和网络技术的不断发展,文档一体化管理、协同办公等各类工作流信息化系统已广泛应用于各行业领域中。由于在应用信息化系统的过程中涉及到大量的电子文档,而电子文
随着我国信息化和互联网技术的迅速发展,电子政务成为当今信息化最重要的领域之一。虽然目前电子政务技术已经进入了电子政务服务系统阶段。但是目前的电子政务系统基本处于一