增量式Deep Web数据获取技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zgz000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速增加。高速增长的Deep Web信息已经成为人们获取信息的一个重要来源。但由于其本身异构性和动态性的特征,用户必须面对和克服信息发现的主要问题。随着在本地集成Deep Web数据重要性的凸显,Deep Web数据获取问题正受到越来越多的学者的关注。本文针对Deep Web数据获取的相关技术进行深入研究,并给出了增量式的数据获取解决方案。本文的主要研究内容如下:(1)对增量式Deep Web数据获取技术的研究背景进行了深入的分析,在此基础上给出了本文的研究目的及意义。(2)设计了一个基于通用搜索引擎的数据源发现爬虫,即通过分析搜索引擎的返回结果来发现领域表单的聚焦爬虫。(3)完成了一套完整的数据源判定及分类方法,其中包括一系列过滤无效表单的启发式规则和基于计算表单相似度的数据源分类方法。(4)分析了一种Web记录的自动抽取方法,该方法通过视觉特征抽取Web记录,之后运用二维混合条件随机场进行数据标注。(5)对部分领域Deep Web数据库的变化频率做了调研,提出了一种针对Deep Web的增量获取策略,分别在数据源级和查询词级不同粒度上分配下载资源。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证了本文提出的方法是有效的。
其他文献
本文基于路由服务器设计一种负载均衡算法,具体实现为:当路由服务器接收到来自于终端的报文时,根据报文的目的地址和终端信息先匹配快速转发表,如果命中就直接转发报文,如果没有命
邮政系统已经拥有很多应用系统,但是各个系统间相对独立。江苏省邮政电子商务平台为集成应用系统,叠加业务提供了一个优秀的平台。本论文详细分析了Linux内核中进程和进程间
下一代网络采用IP技术来承载语音、数据、多媒体等多种类的业务,以实现互联网、电信网、广播电视网三种网络的融合。在下一代网络中,各运营商不仅要改进网络性能提高网络传输
图像描述了客观物体的视觉信息,是一种重要的媒体表达形式。借助于图像中包含的信息,人类可以更加形象的认知外部世界。随着计算机技术的发展,数字图像的数量呈现爆炸式增长,
三维重构主要研究如何通过物体的二维图像信息获取物体的三维结构信息,广泛应用在虚拟现实、三维测量、工业检测和模具制造业等方面。通过单相机拍摄的多幅二维图像来完成物体
人脸检测是计算机视觉与模式识别领域中最重要的研究课题之一。人脸检测在基于内容的图像检索、虚拟现实、视频监控、人脸识别和身份验证等多方面都有广泛的应用。人脸识别的
随着互联网技术的飞速发展,新的应用和服务不断涌现,应用层协议层出不穷。这在带给人们极大便利的同时,其安全性问题也日趋严重。各种新的应用和未知协议导致网络越来越复杂
在一个由信息技术主导的时代,无论是个人业务还是集体作业,或是在证券、金融、政府、教育等行业领域,抑或是大到关系国家信息安全的机构,密码安全的重要性不言而喻。特别是随着互
与其它生物识别技术相比,虹膜识别具有明显的优势。首先,虹膜具有唯一性,其独特而丰富的纹理特征使得其非常适用于身份鉴别;其次,虹膜的特征更为稳定,而且难于伪造,具有更加可靠的安
基于智能移动设备的3D数字媒体技术及游戏软件设计有较高的技术复杂度和广阔的产业发展前景,其中3D赛车游戏因涉及到完整的图形渲染技术、物理仿真技术和游戏人工智能技术,是该