基于XML的WEB数据抽取与存储的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：galen621

【摘要】

：

　　本文讨论了XML较其它半结构化模型的优势，以及现有的基于XML的Web数据抽取技术，考虑到HTML页面的特点，引入了采用基本项方式描述的页面树，给出了将HTML文档转换为XML文档的基

【作者】

：

张靓

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2005年期

【关键词】

：

XML HTML 数据抽取数据挖掘关系数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文讨论了XML较其它半结构化模型的优势，以及现有的基于XML的Web数据抽取技术，考虑到HTML页面的特点，引入了采用基本项方式描述的页面树，给出了将HTML文档转换为XML文档的基于基本项描述方式的多叉页面树的转换方法。该方法基于对HTML页面描述方式、页面结构以及HTML标记和格式的分析，建立页面树，将HTML到XML的转换转变为页面树到XML的转换。按照这个方法开发的HTMLtoXML的原型系统对测试网页基本完成了Web信息提取的任务。　　本文还对如何将XML存储到关系数据库中作了一定研究，给出了基于O-R算法和XMLSchema的将XML映射到关系数据库的映射规则和主要算法。这样将Internet上的数据经过基于XML的数据抽取和基于关系数据库的存储，使得Web挖掘转变成了传统数据挖掘即数据库中的知识发现，以便于使用多种挖掘方法获得更多有用信息。

其他文献

视觉词袋模型架构下的图像分类算法研究

图像分类是计算机视觉研究的重要分支，其目的是根据图像包含的视觉信息，将图像划分到其所属的特定语义类别。图像分类研究能够实现对图像内容的自动理解，是实现图像语义内容自动

学位

图像分类视觉词袋模型K均值聚类特征编码在线学习多特征组合

高速公路视频监控系统的研究与实现

视频监控作为人类视觉的延伸，广泛应用于安全防范、公共场所的安全监控等。随着高速公路的迅速发展，人们对于高速公路的有效管理提出了更高的要求，为了顺应这一要求，视频监控技术

学位

视频监控UML高速公路C/S视频编码

家庭网络核心SoC平台——IRL系统的设计与实现

　　IRL是当前嵌入式系统倡导的一种新的设计理念，其核心是通过Internet对远程设备的硬件进行升级、重构、调试和监控。IRL技术的出现，使远程升级和维护硬件成为可能，基于该技术

学位

家庭网络SoC平台IRL系统嵌入式系统FPGA映像

基于模糊逻辑的隐私感知Web服务选择研究

近年来,随着Web服务技术的广泛应用,互联网上出现了大量的Web服务,这些服务通过Web平台为消费者提供各种功能,构成了大规模面向服务计算的基础。由于服务开发者众多,具有相同

学位

Web服务服务选择隐私保护信誉模糊逻辑

MPEG视频加密技术研究及实现

随着数字技术和Internet技术的不断发展,数字多媒体作品的应用已经达到了前所未有的深度和广度。例如视频点播、收费电视节目、以及视频会议等,这些应用对于多媒体数据的安全

学位

多媒体数据安全视频加密MPEG编码MPEG加密

数据集成方案中的元数据管理系统研究

在数据集成过程中,元数据为整个系统中的数据提供一张完整的数据地图。通过元数据,我们可以了解到系统中的数据结构、数据来源、数据去向以及系统中的一些业务处理规则等。在

学位

元数据元数据管理ETL数据谱系软件可扩展性

针对“虫洞”攻击的移动Ad hoc网安全路由及仿真实现的研究

随着有线网络应用局限性的日益明显以及无线网络技术的成熟,无线网络的应用日益广泛,尤其是移动Ad hoc网络,在军事、紧急情况应急处理、临时办公和会议、移动通信、传感器网

学位

移动Ad hoc虫洞攻击定位节点OMNeT++AODV

基于数据集成中本体自动构建的研究

随着Internet的飞速发展,信息技术在各行各业的广泛应用,人们迫切需要将大量异构的数据集成为一个整体以进行分析处理。数据集成的目的正是用于解决数据源异构这一问题。

学位

本体本体构建数据集成知识挖掘概念相关度

基于.net技术的人力资源管理系统的设计和实现

企业步入信息化时代，企业的管理行为和管理模式如果不实行现代化、信息化，则企业很难在信息时代保持灵敏的嗅觉和高度的灵活性和高效性。企业管理信息化的最低要求是企业可以通

学位

人力资源管理系统加密技术存储过程互联网企业管理

雾霾天气下交通限速标志识别技术研究

大部分的交通事故都是因为驾驶员超速行驶而引起的,加之这几年我国雾霾天气的逐渐加剧,更是对驾驶员准确、及时地识别限速标志产生很大的影响。因此,雾霾天气下限速标志识别

学位

限速标志识别暗通道去雾HOG 特征SVM卷积神经网络

基于XML的WEB数据抽取与存储的研究

与本文相关的学术论文