【摘 要】
:
随着网络飞速发展和所含信息规模的日益扩大,当前web中蕴含了大量的各种各样的数据,其中很大一部分是高质量的结构化信息。而这些信息大多被保存在web在线数据库中,用户只能
论文部分内容阅读
随着网络飞速发展和所含信息规模的日益扩大,当前web中蕴含了大量的各种各样的数据,其中很大一部分是高质量的结构化信息。而这些信息大多被保存在web在线数据库中,用户只能通过查询接口来获取相关的信息,这类信息被称为Deep Web信息。对这些结构化信息进行收集并集成,以提供高质量的结构化信息的检索服务,用户就能够快速、准确地找到所想要的信息。要对Deep Web信息进行收集,首先必须解决的问题就是发现数据源。本文对Deep Web数据源发现所涉及到的相关技术进行了分析研究,并提出了相关的算法和模型。主要研究工作包括:(1)研究了基于Deep Web的查询接口判定技术。Deep Web查询接口是Deep Web信息访问的入口,所以对数据源的发现其实也就是对查询接口的发现。本文提出了一种基于表单特征图的查询接口判定算法。(2)采用分布式爬虫技术处理Deep Web数据源发现问题,提出了一个面向查询接口判定的爬虫框架及算法。(3)通过实践比较不同页面信息抽取方法的优缺点,提出一种基于DOM树的页面信息抽取技术,该方法在DOM树准确定位的基础上,较好地处理了接口抽取中出现的问题。(4)对收集到的数据源信息进行初步的处理,主要是去重处理,获得都是唯一的包含查询接口的表单。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证本文提出的技术方法是行之有效的。
其他文献
本文通过对企业信息化发展现状的分析,阐述了目前在企业数据集成方面所面临的问题,从而进一步论述了数据交换研究的必要性和重要意义。在研究了数据交换的特点以及XML的主要特
随着计算机技术的发展,信息化在农业生产中的应用越来越广泛,计算机图形学,虚拟现实与农业科研生产相结合的主要目的就是解决如何把现实中异常复杂的农业信息以可视化的方式
信息技术将改变了人类的生存方式,也改变了消防工作的管理模式和运作程序,地理信息系统(GIS,Geographic Information System)在消防工作中的应用为消防灭火调度、指挥提供了极大的
随着数字化教育的普及,互联网上存在众多的数据化学习支撑软件,然而由于这些软件使用不同的开发平台、开发语言和数据库,增加了集成的难度。Web服务的出现使得应用集成跨越了
彩色多普勒血流成像(CFI)能够在较大范围内实时显示人体内血流速度大小、方向和分布等血流动力学参数,兼有人体组织信息,并具有无损伤、无痛苦、电离辐射小和实时性好等优点,
在互联网飞速发展和移动互联网强势崛起的时代,科技产品服务于普通生活是新兴行业必然的发展趋势;监控系统是物联网时代各个领域必然争取的可控制系统。随着无线技术和移动终
Ad Hoc网络是由一组带无线收发装置的移动终端组成的一个多跳的临时性自治系统。由于它不依赖固定的基础通信设施,没有中心控制节点,抗毁性强,因此适用于许多网络布线存在困
随着互联网技术的快速发展,实时、交互、多种媒体形式的信息通信方式成为未来信息化发展的必然趋势,互联网络上的多媒体应用具有很好的发展前景。传统的音视频播放模式:看之
科学技术的发展使得教育可以从传统方式转变为电子化学习方式,从而满足人们各种学习的要求。由于教育资源的繁多,e-Learning系统通过本体和元数据对教育资源进行组织,提出了
随着网络信息技术的飞速发展,搜索引擎作为互联网上获取信息最重要的工具已在各个行业得到广泛应用。然而当今网络信息的增长速度已经远远超过搜索引擎的发展速度,搜索引擎的