论文部分内容阅读
Web的飞速发展使其成为一个浩瀚而复杂的巨大数据源。整个Web可以进一步划分为Surface Web和Deep Web两大部分,Deep Web中信息的获取需要通过查询接口在线访问其后端的Web数据库,受限于查询接口的查询能力。由于Deep Web中数据库数量的巨大,给我们的使用带来了困难,这就需要了解Deep Web数据集成系统中所包含数据库的主题分布、更新频率以及大小等有用特征。在实际中,Web数据库所包含的信息量巨大,将Web数据库中的所有数据抽取下来进行分析的工作变得难以实现,由此Web数据库采样技术应运而生。Web数据库采样技术是指通过一定的技术将Web数据库中的数据随机地抽取一部分,这一部分数据能够代表Web数据库所具有的特征信息。现有的Web数据库采样方法中存在着诸多不足,主要体现在两个方面,一是采样的代价大效率低,一是样本的质量差。采样方法在获得样本数据时,击中率低,每次查询得到结果记录的重复率高,进而导致了采样的代价大。样本的质量差,采集到的样本数据库中数据分布存在偏差,同时样本数据库还存在着不能够准确地反应出Web数据库中数据特征的问题。本文提出了一种新的Web数据库采样模型,用以获得能够代替Web数据库分析的样本数据库。在该模型中主要应用了两种新的技术,一种是基于属性相关度的查询模式,一种是基于词频-属性值相关度的查询条件生成策略。通过这两种新技术的使用,不仅降低了采样的代价,同时也提高了样本的质量,达到采样的最终目的,即获得一个与Web数据库数据分布情况基本一致的样本数据库。基于属性相关度的查询模式为从查询属性中选择两个属性组合构成,这两个属性要求一个属性为分类属性,另一个属性为与分类属性的最不相关的文本属性。查询条件中可以有一个或多个属性值,这些属性值可以属于同一个属性也可以属于不同的属性,本文中提出的查询模式的作用就是限制查询条件中属性值的个数和所属的属性。在本文的采样模型中,采样过程使用的所有查询条件都按照查询模式定义生成。与传统方法相比,在得到相同的样本记录数时,本文提出的Web数据库采样模型向Web数据库发送查询的次数明显减少,即采样的代价减小。基于词频-属性值相关度的查询条件生成策略是从词频统计和属性值相关度两个角度分析当前样本数据库,生成满足查询模式的查询条件。词频的大小反映了Web数据库所代表领域的发展现状和发展趋势,对了解Web数据库有很大的作用。为了得到能够代表Web数据库特征的样本数据库,在生成查询条件中加入对词频的分析,达到增加样本质量的目的。属性值相关度是指两个不同的属性值出现在同一条记录中的频率,在生成查询条件中考虑属性值相关度是为了减少发送无用查询的次数,达到了减小采样代价的目的。基于属性相关度的查询模式和基于词频-属性值相关度的查询条件生成策略共同作用于采样模型,在采样关注的两个重点——采样代价和样本质量两个方面得到提高。这两点在实验中得到了验证,切实说明了本文提出的新的Web数据库采样模型能够高效地采集到代替Web数据库分析的样本数据库。