一个基于规则的图书逻辑结构提取算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:bobo1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从多页图书文档的模型描述出发,通过采用基于规则的推理方法,提取出图书中的逻辑元素并确定各元素间的层次关系和相互联系,从而得到了整本图书的逻辑结构。实验结果证明了算法的有效性。
其他文献
"咫尺黄杨树,婆娑枝千重。叶深圃翡翠,根古踞虬龙。"从唐代到明清,黄杨一直备受宠爱,黄杨木质细腻,树姿优美,叶质厚而有光泽,兼之生长缓慢,耐修剪,易保型,因而它不仅在园林绿
本文通过介绍多媒体数据会议和有关协议,分析了多媒体数据会议的底层数据通信机制及其实现协议T.122、T.123、T.124和T.125。并选择IP网作为实现平台,提出了在IP网上实现多媒体数据会议的底层数据通信机
竹草盆景秉承几千年竹文化渊源,艺术内涵丰富,深具中华文人文化的民族特色,而制作竹草盆景成型快、体量小,修剪容易,形式多样,且素材便宜易得,不受经济能力和摆设场地所限制,
新《行政诉讼法》增加了对规范性文件一并审查的条款,以立法的方式承认了当事人对行政行为提起行政诉讼时请求一并审查行政行为所依据的规范性文件的合法性。通过对新《行政
全球化和信息化的时代背景以及西方国家面临的财政危机、信任危机和治理危机等现实困境催生了新公共管理理论的诞生。新公共管理理论把"经济、效率、效能"作为基本价值取向,
利用Shannon信息论理论,针对矩阵本征值的内在特性,提出了广义信息函数(GIF)、信息率(IR)和累计信息率(AIR)概念,用它度量了特征压缩的程度,建立了一种新的基于信息论的PCA特
IP多址广播路由是Internet协议研究的一个重要的方向,随着Internet上多址广播的应用和需求不断增长,IP多址广播路由的研究与实现也变得更加重要和迫切。本文讨论了IP多址广播路由协议的定义与分类,深入
介绍EWB仿真软件的功能及特点,以具体电路为例,阐述电路仿真实验的设计与分析方法。
谈到老年痴呆病的话题,要从美国总统里根的著名公开信说起。1995年,美国前总统里根被确诊为阿尔茨海默病时,曾写过一封公开信,信中说:“我最近被告知我将是遭受老年痴呆折磨的数百
AP3基因在植物的花发育过程中具有重要作用,作为“ABC”模型的B类基因,AP3或PI与AG的作用决定雄蕊的特征。根据已知的杨树AP3同源基因PTD的保守区序列设计引物,以垂柳、黄花柳、