大规模古籍电子化关键技术及实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:smilepk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在总结作者亲自参与的《文渊阁四库全书》电子版的基础上,探讨了大规模古籍电子化的关键技术及实现.该文探讨了OCR相关的前后处理技术,使OCR真正实际应用于大规模古籍电子化的工程上.根据特征提取的概念,舍弃图像上的细枝末节,构造了一个自上而下的版面分析系统,并开发了OCR后处理的一系列校对工具.使《四库全书》电子化的错误率降到万分之一以下,达到了重点出版物的出版标准.为衡量OCR的准确度,文中提出了一个在工程中行之有效的独特方法来衡量OCR的可信度,这在工程及理论上都有意义.该文中探讨了UNICODE在大规模古籍电子化的实现技术:显示、全文检索及跨平台等技术实现.为实现在Internet上享有古籍电子化,文中结合XML标准,构造了一个古籍电子化的软件环境.
其他文献
该文以中国兵器工业第203研究所与西北工业大学1105教研室的合作研究项目"红外成像目标识别与跟踪方法研究"为背景,针对其中的主要研究内容-红外成像目标检测、识别与跟踪作了
论文介绍了玉溪红塔集团专用备件管理模式,为生产部门提供高效率、高质量的专用备件服务.论文先阐述了面向对象的系统需求分析概念和方法,采用面向对象的思想方法对专用备件
无线自组网是一种无需基础设施支持就可以实现节点动态部署、快速展开和运行的无线网络,具有独立性高、抗毁性强等特点。现已广泛应用于军事战争、灾难救助等需要临时通信的
基于Web的信息技术已经成为了当今的热门课题之一,其中的数据库系统与Web的集成技术则是人们关注的焦点.该文重点研究的是网络与数据库的接口技术,对基于Web的数据库发布相关
随着网络技术的发展,人们面对的将不只是简单的点到点之间的文本信息传送,而是大量的视频、音频等多媒体信息的传送。会议电视、分布式处理等,都是需要把信息由一点同时向多点进
该文主要从视觉角度对人脸检测技术进行了研究,包括平面内多姿态人脸检测和人脸侧面特征点定位.论文具体的研究内容如下:1、研究并实现了一种基于肤色模型、旋转角度测试和正
针对具有时态特征、倾斜分布特征及某一段时间内数据的流速超出了计算机处理能力的变流速的数据流环境,提出了一种数据流聚类算法GR-Stream。此算法使用网格单元作为数据点的
该课题建立了一个基于Web的信息搜索和信息推送的系统, 该系统通过对因特网上的信息进行搜索、采集并推送给用户,来实现为用户提供一种个性化服务.信息的收集表现为一个通用
该文认为系统管理应用应是针对大型、复杂、异构的通信网络环境,因此系统管理在功能上和体系结构上均比以往的网络管理有很大的突破,从整体上对系统管理给出了一个框架上的描
该文首先概述了先后出现的各种应用程序编程模型,而后对目前应用比较广泛的EJB体系结构、CORBA体系结构和DCOM体系结构三种主流的网络应用软件体系结构进行研究、分析,并比较