基于Web挖掘的中文电子图书元数据提取方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:morenedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字阅读已然成为全民阅读的主流方式之一。海量电子图书的有序整理、存储及提供更为友好的搜索、阅读体验成为一个重大的挑战。元数据是解决该难题的关键。完备的电子图书元数据配套能够使读者快速的找到目标图书,同时又能够通过元数据迅速了解图书基本内容。   目前,提取电子文档元数据的主要研究方法都是针对文档本身,包括基于规则的方法、基于统计机器学习的方法等,研究对象大都是局限于拥有大量排版格式信息、语义信息的PDF格式的学术论文、HTML文档等。而针对电子图书的元数据提取却尚未有学者涉猎。电子图书的元数据提取在格式支持、计算复杂度等方面与前者都有极大不同,难度也更大。   本文提出一种基于Web挖掘的元数据提取方法。首先,采用基于支持向量机以及文件内容解析的方法从原文档提取尽量多的信息;随后,引入基于部分元数据以及基于书籍内容的两种Web挖掘算法进行网络信息的抓取、分析、整理;最后,将返同的数据与原文档进行相似度的比较、甄别和排序,进而得到最优结果。经实验验证,此方法在针对电子图书的元数据提取方面确实能取得较好的效果。该方法创新之处在于在元数据提取中首次引入Web挖掘的方法,充分利用网络中丰富的元数据资源,解决了电子图书本身元数据信息缺失的问题。
其他文献
获取用户手机的信息必须先发送相应的指令到HLR设备,HLR设备的应答报文是由大量英文字母组成的半结构化文件,如何从半结构化文件当中高效准确的抽取可用的信息是论文研究的主要
P2P技术使当今的互联网发生了日新月异的变化,它改变了以服务器为中心的传统网络模式,提供了一种全新的获取资源的方式,得到了广泛应用。然而,P2P应用却带来了网络流量的急剧增长
近年来,随着移动应用软件数目逐渐庞大以及软件构架的日益复杂化,软件测试在确保软件质量方面发挥着重要作用。接口测试作为测试系统组件间接口的一种测试,具有成本小效率高
超分辨率图像重建技术是指从低分辨率图像序列中重建出一幅高分辨率图像,这些图像有噪声、欠采样并且模糊但是相互之间具有互补信息。这项技术不需要改变现有的硬件设备,只通过
近年来,互联网的迅速发展和网络音频数据量的急剧上升使得对网络音频数据的分类处理需求日益复杂。网络多媒体数据的获取与预处理则是各种音频处理应用的共同基础。本文的研究
随着Web Service技术的发展,面向服务架构的思想不断成熟,把SOA架构思想引入到文本信息处理系统是一个很好的尝试。因为SOA架构思想是面向服务的,系统的业务逻辑可以完全以第三
嵌入式分布式软件具有实时性、计算单元分布等特点,传统的串行调试方法和技术难以直接应用于该类软件的调试,如何针对该类软件特点设计和实现有效调试是软件调试中的重要问题。
1988年蔡少棠教授提出了细胞神经网络(Cellular neutral network,简称CNN),这种网络结合了人工神经网络和细胞自动机的优点。CNN是一种局部互联的神经网络变体,整个网络由大规
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它
移动Ad Hoc网络是一组带有无线收发装置的具有路由功能的节点组成的无中心、自组织的多跳无线网络,在军事、偏远野外、救灾抢险等领域有极为广泛的用途。由于移动终端本身由电