中文电子书的元数据自动抽取研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:lingwei99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
元数据是指用来标志、描述和定位电子资源的数据,也被称为数据的数据。它专门用来描述数据的特征和属性、提供某种资源有关信息的结构数据。有效的元数据组织可以让人们更方便、更准确、更快捷地检索到自己需要的信息,这对于数字文献的管理是必不可少的。但是目前文献元数据的制作和生成,主要靠人工编辑完成,耗时耗力,又效率低下。如何有效的自动获取和生成数字文献的元数据,成为数字资源加工领域一个亟待解决的问题。   从科研论文的头部抽取元数据已经被研究者广泛关注,但如何从图书中自动提取元数据还鲜见研究发表。本文关注这个问题,提出了一个基于规则和机器学习相结合的方法。本文方法包括四个步骤,即元数据的定位、分割、标注以及后处理。   元数据定位:图书的扉页包含了元数据的绝大部分,因此,本文通过定位图书扉页来获取元数据,在其中,我们提出了基于规则的扉页定位方法和扉页中元数据区域的定位方法。   元数据分割:依据行、分隔符号和空白进行页面分块,使得每一块尽可能的对应一个逻辑上完整的元数据。针对一些电子书中空白难以界定的情况,本文还设计了基于反馈的双阈值判定方法。   元数据标注:针对中文图书的元数据特点,本文首先提出了一系列的元数据提取规则,建立了规则库和执行策略。然后提出了更为灵活的基于支持向量机(Support Vector Machine,SVM)的元数据提取方法,根据人工标注的样例,自动学习元数据提取规则。最后根据元数据标注结果的准确程度,将基于规则和学习的方法结合起来,实现对文字块进行元数据类型的标注。对于书名和作者这两种利用以上方法难以识别的元数据,本文根据页眉页脚的元数据重现性,利用页间联合判断的方法,实现书名和标题的识别,提高了书名和作者的识别效果。   后处理:包括两个方面,元数据分割结果的后处理和标注结果的后处理,在其中本文提出了双阈值的分割方法和基于元数据连续性的标注修正方法。   本文实现了一个中文图书元数据提取的系统原型,建立了用于机器学习训练和测试的数据集。实验证实本文方法能取得较高的准确率,将有助于提高电子书
其他文献
基于J2EE平台的轻量级开发框架消除了一些传统开发中多余的复杂性和技术方面的约束,业界应用十分广泛,但仍然采取效率低下的手工方式的模型转换,所以需要建立一套可行的系统
随着数码设备的普及和互联网的快速发展,网络资源环境下的图像资源越来越丰富。如何从海量的web图像资源中检索用户感兴趣的图像成为信息检索领域的热点问题。近年来,基于概念
随着科技的进步,观测手段,实验工具的巨大革新,导致的数据的爆发式膨胀,科学研究方法从过去的经验科学阶段转变到以数据处理,分析,挖掘为核心的数据探索阶段。在十多年前,计算方法被
以微博、社交网络等为代表的Web2.0互联网应用的兴起及其处理数据量的爆炸性增长,对数据管理的灵活性、可扩展性、高性能的读写有了更高的要求。传统的关系数据库由于模式固定
随着企业信息化建设进程的推进,越来越多的企业需要集成各种不同的信息管理系统。在对企业信息管理系统进行集成时,主要会面对系统间的异构性、完整性、语义冲突和集成内容的
语音分离作为语音信号处理的重要研究方向,在语音识别、语音增强等方面都有着非常积极的意义。本论文在分析和总结以往研究工作的基础上,针对欠定语音分离的难点问题(传统算
反馈顶点集是给定图中的一个顶点子集,删除这个顶点子集让剩下的图成为森林。最小反馈顶点集问题是经典的NP完全问题之一,在实践中有广泛应用,包括操作系统中死锁预防和解除、信
分类问题是机器学习领域中的一个基本问题,对分类器的设计和改进等研究工作层出不穷并且日益出新。当前的分类算法主要以概率统计方法为理论工具,在模式识别、数据挖掘等领域
关键词是代表文章重要内容的一组词。对文本聚类、分类、自动摘要等起重要的作用。此外,它还能使人们便捷浏览和获取信息。现实中大量文本不包含关键词,自动提取关键词技术有也
无线射频识别技术(Radio Frequency Identification,RFID)是一种以空间电磁波为传输媒介进行非接触双向数据通信的数据自动采集技术。RFID技术具有广泛的应用前景,现已被应用