基于XML的WEB数据抽取与存储的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:galen621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文讨论了XML较其它半结构化模型的优势,以及现有的基于XML的Web数据抽取技术,考虑到HTML页面的特点,引入了采用基本项方式描述的页面树,给出了将HTML文档转换为XML文档的基于基本项描述方式的多叉页面树的转换方法。该方法基于对HTML页面描述方式、页面结构以及HTML标记和格式的分析,建立页面树,将HTML到XML的转换转变为页面树到XML的转换。按照这个方法开发的HTMLtoXML的原型系统对测试网页基本完成了Web信息提取的任务。   本文还对如何将XML存储到关系数据库中作了一定研究,给出了基于O-R算法和XMLSchema的将XML映射到关系数据库的映射规则和主要算法。这样将Internet上的数据经过基于XML的数据抽取和基于关系数据库的存储,使得Web挖掘转变成了传统数据挖掘即数据库中的知识发现,以便于使用多种挖掘方法获得更多有用信息。
其他文献
图像分类是计算机视觉研究的重要分支,其目的是根据图像包含的视觉信息,将图像划分到其所属的特定语义类别。图像分类研究能够实现对图像内容的自动理解,是实现图像语义内容自动
视频监控作为人类视觉的延伸,广泛应用于安全防范、公共场所的安全监控等。随着高速公路的迅速发展,人们对于高速公路的有效管理提出了更高的要求,为了顺应这一要求,视频监控技术
  IRL是当前嵌入式系统倡导的一种新的设计理念,其核心是通过Internet对远程设备的硬件进行升级、重构、调试和监控。IRL技术的出现,使远程升级和维护硬件成为可能,基于该技术
近年来,随着Web服务技术的广泛应用,互联网上出现了大量的Web服务,这些服务通过Web平台为消费者提供各种功能,构成了大规模面向服务计算的基础。由于服务开发者众多,具有相同
随着数字技术和Internet技术的不断发展,数字多媒体作品的应用已经达到了前所未有的深度和广度。例如视频点播、收费电视节目、以及视频会议等,这些应用对于多媒体数据的安全
在数据集成过程中,元数据为整个系统中的数据提供一张完整的数据地图。通过元数据,我们可以了解到系统中的数据结构、数据来源、数据去向以及系统中的一些业务处理规则等。在
随着有线网络应用局限性的日益明显以及无线网络技术的成熟,无线网络的应用日益广泛,尤其是移动Ad hoc网络,在军事、紧急情况应急处理、临时办公和会议、移动通信、传感器网
随着Internet的飞速发展,信息技术在各行各业的广泛应用,人们迫切需要将大量异构的数据集成为一个整体以进行分析处理。数据集成的目的正是用于解决数据源异构这一问题。
企业步入信息化时代,企业的管理行为和管理模式如果不实行现代化、信息化,则企业很难在信息时代保持灵敏的嗅觉和高度的灵活性和高效性。企业管理信息化的最低要求是企业可以通
大部分的交通事故都是因为驾驶员超速行驶而引起的,加之这几年我国雾霾天气的逐渐加剧,更是对驾驶员准确、及时地识别限速标志产生很大的影响。因此,雾霾天气下限速标志识别