Web数据库大小估算方法的研究与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:a9711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的不断发展,使得Web迅速发展成为一个浩瀚复杂的数据源,已成为人们获取信息的重要途径。整个Web可以划分为Surface Web和Deep Web(又称为Hidden Web或Invisible Web)两大部分。Deep Web包含的信息比Surface Web中的信息更丰富、结构化更好、主题性更强。为了更加高效、准确地利用Deep Web上的海量信息,研究者们已经在Deep Web领域开展了大量的研究工作。尤其是在Deep Web数据集成方面,积累了相当多的研究成果。本文关注的则是Deep Web研究领域的一个新问题,即如何估算一个 Web数据库的人小。  本文首先介绍了一些Web数据库大小估算方法相关工作,并指出了其存在的缺陷与不足。然后针对目前较为完善的基于属性相关度的Web数据库大小估算方法的缺陷进行了改进,并提出了一种新的随机采样方法。其主要工作如下:(1)提出了一种基于Zipf分布的Web数据库大小估算方法。该方法通过计算属性相关度,选择属性相关度最小的属性抽取近似随机样本。根据该近似随机样本,计算得到属性词分布与样本大小,并在此基础上计算Zipf分布方程,得到属性值的词频,从而估计Web数据库的大小。该方法是对基于属性相关度的Web数据库随机采样方法存在的缺陷——即使选择属性相关度最小的属性进行随机采样,两个属性还是有一定的关联,这就会给采样结果带来一定的影响,针对这一缺陷进行的改进,使得对Web数据库的估算结果更加准确。(2)根据Web数据库的特征,提出了一种新的基于覆盖率的随机采样方法,其基本思想是将Web数据库按照中高频词分成若干个大小不等的抽样单元,然后从中抽取一定量的样本。该抽样方法是根据Web数据库中的词频分布规律提出的一种密度偏差采样方法,是一种量化的抽样方法。这种随机抽样方法解决了只有一种无限值查询接口的难题。  最后,通过实验分别验证了本文所提出的估算方法与抽样方法的有效性,证明本文提出的估算方法与抽样方法具有一定的实用价值。
其他文献
如果把人对外界的感知表示为高维空间中的点集,那么这些感知输入之间的统计相关性,在几何学上表现为数据点散布在低维光滑流形上,或在低维光滑流形附近。人能够从外界的刺激感知
工作流管理系统的主要目标是通过合理地调用和分配有关的信息及人力资源来协调业务过程中的各个活动,以促使业务目标的高效实现。在计算机和网络使用得越来越广泛的今天,工作流
计算机技术和网络技术的迅速发展,使得现代社会高度信息化。在日常生活中,使用电子装置储存重要资料的方式日渐普及。随之而来的是,信息安全受到了人们的普遍关注。当使用者
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。Web的迅猛发展为文本自动分类技术提供了一个
在信息技术不断发展,信息革命逐步推进的今天,人们的家居生活观念更具有开放性,安全与便捷的进行信息交换的要求日趋强烈。传统的身份识别技术已经不能满足信息家居日益发展
本文通过对支持向量机(SVM)和多分类器决策组合技术的研究,给出一种基于多SVM决策组合的入侵检测系统。 支持向量机是一种建立在统计学理论基础上的机器学习方法。其最大的
目前,4G标准已经逐步进入商用阶段,未来的SG通信则要求全球只有一种通信标准,不分地域差异。在这样的研究背景下,如何设计一个适合未来SG通信标准的高性能数字信号处理器成为
Internet用户快速增加和用户所传输数据量的加大,导致越来越严重的拥塞问题。拥塞控制的目的就是采取一定的控制机制,既能保证达到一定的吞吐量,提高网络的利用率,又能够避免
大型软件系统特别是基于WEB的软件系统的普及,使得对软件开发过程的管理研究显得更为重要。而软件规模、软件开发劳动成本、软件风险估计是软件开发过程管理中的重要内容。为
网格技术是近年来从广域网络计算,特别是广域网的高性能计算发展而来的一种技术。网格被认为是信息技术发展的下一波浪潮,它使用户能够协同地使用地理上分散的各种资源,达到