基于XML的web数据抽取研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:tfjxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intemet的快速发展,Web网页的数量也不断增加,尽管从网上可以查找到几乎所有知识领域的相关资料,但是对数据的操作和控制却不尽人意。为了更加有效地利用网络资源,从中获取有用的数据资料,研究人员开创了web数据抽取这一领域。利用数据抽取技术,对网页的结构和数据特征进行分析,可以抽取出网页中用户感兴趣的数据,以结构化的形式进行集成和保存,以供XML查询语言或者SQL语言查询,或者供其它的应用程序使用。Wrapper是从网页中抽取数据的程序,构造准确、健壮和通用的Wrapper可以使网页免受结构变化的影响,且减少人为参与,但是现有的各种Wrapper有着不同的局限性,在精度、健壮性和通用性方面难以达到很高的要求。本文利用标准的XML技术来解决数据抽取问题,提出一种基于XML技术的web数据抽取方法。 作者的主要工作如下: (1)XML技术的发展使得基于XML的web数据抽取方法成为web数据抽取的趋势,本文对三种web数据抽取方法进行了分析和比较。 (2)在详细分析和比较数据抽取技术中三种常用的信息定位方法的基础上,应用XPath和XQuery技术在数据转换和定位方面的优势,提出了基于树的绝对路径和属性相结合的信息定位方法APTA(Absolute Path of Tree &Attribution),综合了基于树的绝对路径的信息定位方法和基于属性的信息定位方法的优点,实现了对信息更加准确的定位。 (3)利用HTML Tidy工具对待抽取页面进行清洗,将web数据抽取过程以及改进的定位方式放在XML语言编写的配置文件里定义,根据配置文档中自定义的元素和结构编程实现基于XML的web数据抽取。 (4)根据Shared Inlining模型将XML数据型的抽取结果转换为关系表型数据,使得可以利用关系数据库已有的理论基础和应用平台最大限度地实现对web信息的再利用。 (5)虽然本文的基于XML的web数据抽取方法的F值还未达到理想值,但与三种基本的信息定位方法的web数据抽取方法相比较,其F值是最优的。所以本文的基于XML的web数据抽取方法在功能上还是令人满意的,对基于XML的web数据抽取技术的研究与应用具有一定的参考价值。
其他文献
作为一项飞速发展的高新技术,卫星遥感可以根据不同地物的光谱响应特征向人们提供大量的科学数据和动态信息。然而,不同于二维图像,卫星遥感光谱图像呈现出三维特性,数据量十分庞
光纤通信技术是现代数字通信领域内的热点,发展非常迅猛,并且得到广泛的应用。目前SDH基本上取代了准同步数字序列(PDH),在应用上也由长途传输网逐渐转向本地网和接入网。近年来
数字化已成为高校建设与管理的重要内容,各高校相继展开了基于校园网的数字化管理系统开发与应用,开放实验室管理系统是极其重要的组成部分。随着网络应用的普及,对系统的安
作为先进的视频编码标准,H.264/AVC不但追求高效的编码效率,同时也提供了较好的视频质量,是一种高效经典的视频编码方法。多视点视频编码(Multiview VideoCoding, MVC)是基于H.264
乘积积累码(PA码)是由单校验乘积码和递归卷积码串行级联而成的一种码型,具有规则的结构、优越的性能、很低的编译码复杂度,并且码率可以在1/2~1之间灵活调整。PA码分为Ⅰ型和Ⅱ
GSM-R是中国铁路于2000年底正式采用的源于欧洲的先进的铁路无线通信系统。它以成熟的GSM为基础,增加了诸多针对铁路的高级功能。由于中国铁路和欧洲铁路的差异,迄今为止大量
学位
分布式星载SAR系统具有单星SAR系统不可替代的优异性能,是近几年国际上的研究方向,主星带伴随小卫星SAR系统是其中的热点之一。它由一组群聚卫星协同工作完成一颗单一卫星的
Ad hoc无线网络作为一种新兴的,利用节点之间多跳传递信息的自组织开放性的无线网络,在网络安全,路由组织等各个方面,Ad hoc网络还有许多地方亟待改进。确保无线链路的安全通信,就