论文部分内容阅读
网络技术的不断发展,使得Web迅速发展成为一个浩瀚复杂的数据源,已成为人们获取信息的重要途径。整个Web可以划分为Surface Web和Deep Web(又称为Hidden Web或Invisible Web)两大部分。Deep Web包含的信息比Surface Web中的信息更丰富、结构化更好、主题性更强。为了更加高效、准确地利用Deep Web上的海量信息,研究者们已经在Deep Web领域开展了大量的研究工作。尤其是在Deep Web数据集成方面,积累了相当多的研究成果。本文关注的则是Deep Web研究领域的一个新问题,即如何估算一个 Web数据库的人小。 本文首先介绍了一些Web数据库大小估算方法相关工作,并指出了其存在的缺陷与不足。然后针对目前较为完善的基于属性相关度的Web数据库大小估算方法的缺陷进行了改进,并提出了一种新的随机采样方法。其主要工作如下:(1)提出了一种基于Zipf分布的Web数据库大小估算方法。该方法通过计算属性相关度,选择属性相关度最小的属性抽取近似随机样本。根据该近似随机样本,计算得到属性词分布与样本大小,并在此基础上计算Zipf分布方程,得到属性值的词频,从而估计Web数据库的大小。该方法是对基于属性相关度的Web数据库随机采样方法存在的缺陷——即使选择属性相关度最小的属性进行随机采样,两个属性还是有一定的关联,这就会给采样结果带来一定的影响,针对这一缺陷进行的改进,使得对Web数据库的估算结果更加准确。(2)根据Web数据库的特征,提出了一种新的基于覆盖率的随机采样方法,其基本思想是将Web数据库按照中高频词分成若干个大小不等的抽样单元,然后从中抽取一定量的样本。该抽样方法是根据Web数据库中的词频分布规律提出的一种密度偏差采样方法,是一种量化的抽样方法。这种随机抽样方法解决了只有一种无限值查询接口的难题。 最后,通过实验分别验证了本文所提出的估算方法与抽样方法的有效性,证明本文提出的估算方法与抽样方法具有一定的实用价值。