基于XML的web数据抽取研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：tfjxy

【摘要】

：

随着Intemet的快速发展，Web网页的数量也不断增加，尽管从网上可以查找到几乎所有知识领域的相关资料，但是对数据的操作和控制却不尽人意。为了更加有效地利用网络资源，从中获取有

【作者】

：

余丽

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2007年期

【关键词】

：

web数据抽取 XML查询语言 Web网页网络资源

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Intemet的快速发展，Web网页的数量也不断增加，尽管从网上可以查找到几乎所有知识领域的相关资料，但是对数据的操作和控制却不尽人意。为了更加有效地利用网络资源，从中获取有用的数据资料，研究人员开创了web数据抽取这一领域。利用数据抽取技术，对网页的结构和数据特征进行分析，可以抽取出网页中用户感兴趣的数据，以结构化的形式进行集成和保存，以供XML查询语言或者SQL语言查询，或者供其它的应用程序使用。Wrapper是从网页中抽取数据的程序，构造准确、健壮和通用的Wrapper可以使网页免受结构变化的影响，且减少人为参与，但是现有的各种Wrapper有着不同的局限性，在精度、健壮性和通用性方面难以达到很高的要求。本文利用标准的XML技术来解决数据抽取问题，提出一种基于XML技术的web数据抽取方法。作者的主要工作如下： (1)XML技术的发展使得基于XML的web数据抽取方法成为web数据抽取的趋势，本文对三种web数据抽取方法进行了分析和比较。 (2)在详细分析和比较数据抽取技术中三种常用的信息定位方法的基础上，应用XPath和XQuery技术在数据转换和定位方面的优势，提出了基于树的绝对路径和属性相结合的信息定位方法APTA(Absolute Path of Tree &Attribution)，综合了基于树的绝对路径的信息定位方法和基于属性的信息定位方法的优点，实现了对信息更加准确的定位。 (3)利用HTML Tidy工具对待抽取页面进行清洗，将web数据抽取过程以及改进的定位方式放在XML语言编写的配置文件里定义，根据配置文档中自定义的元素和结构编程实现基于XML的web数据抽取。 (4)根据Shared Inlining模型将XML数据型的抽取结果转换为关系表型数据，使得可以利用关系数据库已有的理论基础和应用平台最大限度地实现对web信息的再利用。 (5)虽然本文的基于XML的web数据抽取方法的F值还未达到理想值，但与三种基本的信息定位方法的web数据抽取方法相比较，其F值是最优的。所以本文的基于XML的web数据抽取方法在功能上还是令人满意的，对基于XML的web数据抽取技术的研究与应用具有一定的参考价值。

其他文献

卫星通信中光谱图像压缩与传输算法研究

作为一项飞速发展的高新技术，卫星遥感可以根据不同地物的光谱响应特征向人们提供大量的科学数据和动态信息。然而，不同于二维图像，卫星遥感光谱图像呈现出三维特性，数据量十分庞

学位

卫星通信网络编码分块压缩感知差分模型可靠性

SDH复用设备的高性价比监控板设计

光纤通信技术是现代数字通信领域内的热点，发展非常迅猛，并且得到广泛的应用。目前SDH基本上取代了准同步数字序列(PDH)，在应用上也由长途传输网逐渐转向本地网和接入网。近年来

学位

SDH监控板单片机CPLD

开放实验室中的访问控制研究

数字化已成为高校建设与管理的重要内容,各高校相继展开了基于校园网的数字化管理系统开发与应用,开放实验室管理系统是极其重要的组成部分。随着网络应用的普及,对系统的安

学位

开放实验室身份认证RBAC访问控制

基于多视点视频编码的快速模式判定算法研究

作为先进的视频编码标准，H.264/AVC不但追求高效的编码效率，同时也提供了较好的视频质量，是一种高效经典的视频编码方法。多视点视频编码（Multiview VideoCoding, MVC）是基于H.264

学位

H.264/AVC多视点视频编码模式判定自适应提前终止

Ⅰ型PA码与规则LDPC码的性能对比研究

乘积积累码(PA码)是由单校验乘积码和递归卷积码串行级联而成的一种码型，具有规则的结构、优越的性能、很低的编译码复杂度，并且码率可以在1/2～1之间灵活调整。PA码分为Ⅰ型和Ⅱ

学位

Ⅰ型PA码LDPC码乘积积累码Turbo码香农限误码率性能移动通信系统卫星通信系统信道编译码

GSM-R手机底层开发环境的定制和移植

GSM-R是中国铁路于2000年底正式采用的源于欧洲的先进的铁路无线通信系统。它以成熟的GSM为基础,增加了诸多针对铁路的高级功能。由于中国铁路和欧洲铁路的差异,迄今为止大量

学位

GSM-RSC32442LinuxGTKU-Boot嵌入式系统驱动程序

蜂窝网络中D2D通信系统的性能分析与优化

学位

主星带伴随小卫星SAR系统ATI慢动目标测速精度研究

分布式星载SAR系统具有单星SAR系统不可替代的优异性能,是近几年国际上的研究方向,主星带伴随小卫星SAR系统是其中的热点之一。它由一组群聚卫星协同工作完成一颗单一卫星的

学位

主星带伴随小卫星SAR系统沿航迹干涉基线相位测速精度

Ad hoc网络密钥管理研究

Ad hoc无线网络作为一种新兴的，利用节点之间多跳传递信息的自组织开放性的无线网络，在网络安全，路由组织等各个方面，Ad hoc网络还有许多地方亟待改进。确保无线链路的安全通信，就

学位

信任值密钥管理椭圆曲线Ad hoc网络无线网络网络安全

基于XML的web数据抽取研究

其他学术论文