Web数据库采样技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liongliong519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web的飞速发展使其成为一个浩瀚而复杂的巨大数据源。整个Web可以进一步划分为Surface Web和Deep Web两大部分,Deep Web中信息的获取需要通过查询接口在线访问其后端的Web数据库,受限于查询接口的查询能力。由于Deep Web中数据库数量的巨大,给我们的使用带来了困难,这就需要了解Deep Web数据集成系统中所包含数据库的主题分布、更新频率以及大小等有用特征。在实际中,Web数据库所包含的信息量巨大,将Web数据库中的所有数据抽取下来进行分析的工作变得难以实现,由此Web数据库采样技术应运而生。Web数据库采样技术是指通过一定的技术将Web数据库中的数据随机地抽取一部分,这一部分数据能够代表Web数据库所具有的特征信息。现有的Web数据库采样方法中存在着诸多不足,主要体现在两个方面,一是采样的代价大效率低,一是样本的质量差。采样方法在获得样本数据时,击中率低,每次查询得到结果记录的重复率高,进而导致了采样的代价大。样本的质量差,采集到的样本数据库中数据分布存在偏差,同时样本数据库还存在着不能够准确地反应出Web数据库中数据特征的问题。本文提出了一种新的Web数据库采样模型,用以获得能够代替Web数据库分析的样本数据库。在该模型中主要应用了两种新的技术,一种是基于属性相关度的查询模式,一种是基于词频-属性值相关度的查询条件生成策略。通过这两种新技术的使用,不仅降低了采样的代价,同时也提高了样本的质量,达到采样的最终目的,即获得一个与Web数据库数据分布情况基本一致的样本数据库。基于属性相关度的查询模式为从查询属性中选择两个属性组合构成,这两个属性要求一个属性为分类属性,另一个属性为与分类属性的最不相关的文本属性。查询条件中可以有一个或多个属性值,这些属性值可以属于同一个属性也可以属于不同的属性,本文中提出的查询模式的作用就是限制查询条件中属性值的个数和所属的属性。在本文的采样模型中,采样过程使用的所有查询条件都按照查询模式定义生成。与传统方法相比,在得到相同的样本记录数时,本文提出的Web数据库采样模型向Web数据库发送查询的次数明显减少,即采样的代价减小。基于词频-属性值相关度的查询条件生成策略是从词频统计和属性值相关度两个角度分析当前样本数据库,生成满足查询模式的查询条件。词频的大小反映了Web数据库所代表领域的发展现状和发展趋势,对了解Web数据库有很大的作用。为了得到能够代表Web数据库特征的样本数据库,在生成查询条件中加入对词频的分析,达到增加样本质量的目的。属性值相关度是指两个不同的属性值出现在同一条记录中的频率,在生成查询条件中考虑属性值相关度是为了减少发送无用查询的次数,达到了减小采样代价的目的。基于属性相关度的查询模式和基于词频-属性值相关度的查询条件生成策略共同作用于采样模型,在采样关注的两个重点——采样代价和样本质量两个方面得到提高。这两点在实验中得到了验证,切实说明了本文提出的新的Web数据库采样模型能够高效地采集到代替Web数据库分析的样本数据库。
其他文献
论文分析了分布式入侵检测系统的体系结构和组件之间信息共享方式的演变,对CIDF(公共入侵检测框架)中的组件通信机制、IDXP(入侵检测交换协议)和现有分布式入侵检测系统的组
扩展巴科斯范式(ABNF,AugmentedBNF)是Internet工程任务组(IETF,InternetEngineeringTaskForce)在RFC2234中给出的一个字符串模式匹配的文法定义,它被广泛应用于各种网络协议的
随着计算机网络的发展,当越来越多的公司及个人成为INTERNET用户后,计算机网络安全作为一个无法回避的问题呈现在人们面前,用户传统上采用防火墙作为安全第一道防线,而随着攻
微博客作为一种新的舆论载体和传播途径,在网络舆情信息发起和传播中起着越来越重要的作用。与传统的博客、论坛和商品评论等载体相比,微博具有无障碍、短消息和实时性等新特
近年来,如何在Web海量信息中尽可能多地获取与用户兴趣相关的页面是搜索引擎领域研究的热点之一。本文通过改善网络蜘蛛的自适应性来提高搜索效率,对基于主题的网络蜘蛛的搜
  基于模型的诊断(Model-BasedDiagnosis,MBD)是人工智能领域近年发展起来的一个十分活跃的研究分支。其主要思想是根据系统的逻辑模型以及系统的输入推导出系统在正常情况
Web Service是分布式计算领域的一项重大技术飞跃,代表着新一代软件架构模式,利用Web Service可以实现在互联网上架构应用软件。Web Service解决了使用传统的CORBA、DCOM这类
测试用例生成是软件测试的关键。统一建模语言(UML)是一种通用的图形化建模语言,在面向对象系统的分析和设计中,它已成为事实上的工业标准。本文提出了一种基于UML状态图的面向
本文在对时间自动机进行深入研究的基础上,提出了公式时钟自动机。在公式时钟自动机中,每一个事件对应一个命题、并且针对给定命题集上的每个线性命题时态逻辑公式,本文定义两个
随着无线通信和移动设备的飞速发展,如何保证客户端高速准确的从数据服务器端获得结果成为一项必须解决的课题。语义缓存是近些年来提出的一种解决这一问题的方法,它充分利用到