Deep Web数据库的发现与分类研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:holdingmanzsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,互联网中蕴含了海量的信息资源,按其所蕴含信息的“深度”可以将其划分为Deep Web和Surface Web。Deep Web中蕴藏的信息比SurfaceWeb中的信息规模更大、质量更高、更具权威性,但传统的搜索引擎只能检索到SurfaceWeb中的信息,而无法检索到Deep Web中的信息。因此,Deep Web资源的获取问题成为数据库领域和信息检索领域的研究热点。本文研究的目的在于如何有效地发现Deep Web数据库并将其按领域分类。面对规模庞大而又持续增长的Web信息资源,如何有效的从中发现Web数据库是一件具有挑战性的工作。我们利用搜索引擎进行基于领域的Deep Web数据库的发现。虽然传统的搜索引擎无法直接获得Web数据库中的内容,但是Web数据库的查询接口是静态的,存在于Surface Web页面中的,可以被搜索引擎检索到。这种方式可以充分利用现有搜索引擎强大的搜索功能,需要解决的问题是向搜索引擎提供什么样的查询词以及如何从查询结果中识别出数据库接口。我们给出了确定查询词的方法和识别Web数据库接口的启发式规则。实验表明,该方法能够快速发现Web数据库的查询接口,并且具有较强的领域区分能力。我们把Deep Web数据库接口分为简单查询接口和复杂查询接口,并基于此提出一种渐进式Deep Web数据库分类方法。对于复杂查询接口,根据接口上的特征属性直接分类:对于简单查询接口,通过提交查询词,根据结果页面上的特征属性对接口进行分类。实验表明,渐进式分类法具有较高的分类准确率和时间效率。
其他文献
随着Internet的迅速发展,可共享的资源越来越多,对数据的描述千差万别,数据环境的差异也越来越大。在企业内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准,所以造成了现有
国内企业信息化建设为企业业务的展开和效率的提高带来了不可磨灭的贡献。企业在不同时间、不同部门开发的应用系统间的信息交换一直是困扰企业的难题,“信息孤岛”问题普遍
近年来,以Web服务为基础的面向服务的体系结构的迅速发展,为互联网应用提供了一种共享数据的有效手段。Web服务组合为企业业务应用提供了极大的灵活性。然而,Web服务组合技术
XML数字签名规范为数字签名提供了一个标准的、基于XML的表示格式,并且为签署数字内容定义了一个标准的处理模型,以此为基于XML的Web服务之间的数据的可信交换提供了一个互操
在光盘系统中,信道编码的性能对于整个光记录信道性能有很大的影响,是光盘标准制订过程中需要重点考虑的因素。游程长度受限(Run-Length Limited,RLL)码是一种在光盘中广泛应
当前纹理合成算法的两个关键问题是合成质量和时间消耗之间的矛盾。本文阐述了基于小波的样图纹理合成方法。该算法采用双多分辨率金字塔:一个是由样图小波变换得到的输入金字
扭簧扭矩测试系统通过测量扭簧的扭矩和转角,对照预先规定的指标来实现自动筛选出合格与不合格产品,实现对各种扭簧质量的检测。扭转弹簧由于尺寸小,刚性差,易变形,难定位,难于测量
通信行业竞争日益激烈,如何通过对现有历史数据的分析,提高网络资源的利用率,制定切实有效的业务政策来指导企业合理分配资源、提高服务质量,是通信行业决策者亟需解决的问题
被誉为“第三代神经网络”的Spiking神经网络是神经科学,计算智能领域的最新研究成果,它是能够有效模拟生物神经元之间信息随时间连续传递的动力系统。该模型采用时间编码方
随着计算机技术的快速发展和测控应用业务的不断增加,航天测控系统从功能单一、人工操作向多功能、智能化方向转变,网络化分布式状态测控的应用也越来越多。随着各种不同应用