基于XML的信息抽取和集成模型的研究与设计

来源 :南昌大学 | 被引量 : 0次 | 上传用户:fuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年Internet的飞速发展,虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台,但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。在这样的背景下,出现了Web信息抽取技术,Web信息抽取技术是从信息抽取技术中衍生出来的,它继承和发展了信息抽取领域的一些关键技术,同时,XML技术出现后,迅速成为了互联网信息表示的标准。本文就是把传统的信息抽取技术同XML技术结合起来,在Web信息抽取过程中起到了事半功倍的效果。本文首先对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的树型结构抽取规则,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去。Web信息抽取出来,用户如果不能够随心所欲地加以利用,那么将是毫无价值的。所以,抽取信息的数据集也是Web信息抽取过程当中不可忽视的一个子过程。那么,如何把抽取出来的数据准确地映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出了基于XML的Web查询模式。总之,Web信息抽取技术结合XML的存储和访问技术,最大限度地实现了Web信息的再利用。本文的创新之处在于作者提出了一个信息抽取原型系统的设计以及实现方案,该系统采用了多策略的基于XML的抽取方法来满足各个不同领域的抽取需求。在文章的最后,作者基于江西省新华书店的实例对系统的各项抽取系数进行了评估,基本达到了预期的效果。
其他文献
银行管理数据提取平台是根据银行工作的标准化、服务化、信息化、网络化、而建立的一种管理信息系统。银行的数据管理对象是金融行业大量的、随时更新的又需要高度保密的数据
有限单元法是一种有效的数值分析方法,是计算机辅助工程(CAE)的重要组成部分。随着工程问题复杂度的逐渐增加,CAD/CAE建模方法也在不断地发展。逆向工程是近几年发展起来的一种
混合云存储作为一种新型的数据存储模式,特别是随着大数据浪潮的到来,这一新型的数据存储模式已经逐渐被各行各业所接受、所使用。虽然这种存储模式看来潜力无限,但在实际使
目前,随着电子商务、物流行业的迅速发展以及国民消费水平的不断提高,网上购物规模逐年上升。相比传统购物方式,网上购物不仅具有方便、快捷、安全的优点,同时允许消费者对购买成
本文使用统一建模语言UML和统一过程RUP相结合的的面向对象软件工程方法学指导软件系统的设计与实现,将UML和RUP有机融合应用于项目--在线考试系统中。按RUP的核心工作流安排
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方
随着互联网络的迅速发展,网络信息成为最大的信息来源,如何从海量的网络信息中准确查找自己所需要的信息是搜索引擎需要解决的主要问题。而随着信息多元化的增长,需要为不同
由于RDF(Resource Description Framework)数据模型的灵活性和可扩展性,越来越多的社区将它们的数据以RDF的格式进行发布。因此,分布式存储和处理RDF数据已经成为一个热点问
在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机I/O请求,从而严重影响文件缓
关联规则是数据挖掘领域的一个重要分支,它反映的是大量数据中间内在的关联联系,其目的是找出满足最小支持度和最小置信度要求的强关联规则。频繁项集挖掘是关联规则挖掘的关键