论文部分内容阅读
随着计算机技术、网络技术和数据库技术的快速发展,如何存储和管理在网络中的海量数据是计算机领域的一个重要问题。P2P模型是一种新型的体系结构模型,其中的每个成员都可分享数据、存储以及计算资源。在数据管理、搜索引擎、数据流管理、语义网等领域具有广阔的应用前景。近年来,P2P数据管理技术已成为当前数据库领域研究的热点,而不确定数据查询处理技术以及数据挖掘技术更是目前P2P数据管理技术的核心问题。现有的相关处理技术主要采用集中式处理方式,无法适应P2P网络等分布式环境,为此本文紧紧围绕P2P环境下不确定数据查询处理技术以及数据挖掘相关技术问题展开深入研究。本文从P2P网络的拓扑结构出发,提出一些P2P环境下不确定数据相关查询的解决方法。此外,本文针对P2P环境下数据的分类问题进行了研究,并提出了基于已知分类器(OS-ELM)的分类算法。具体研究工作如下:针对“结构化P2P网络下不确定数据的top-k查询”:本文首先给出了在不确定数据集上的top-k查询的定义;然后,以chord拓扑为例阐述了在P2P环境中对不确定数据的top-k查询处理算法,并且在保序散列的基础上提出了基于upper-bound的剪枝策略及逐步合并的剪枝策略;最后,通过大量的实验来验证了本文所提出算法的性能。针对“非结构化P2P网络下基于索引的不确定数据查询”:本文对在P2P网络的不确定数据的top-k查询提出了基于Quad-tree索引的查询算法。本文在一个水平分布的super-peer网络中对不确定数据进行top-k查询。在super-peer网络中,每个节点基于Quad-Tree来索引本地的不确定数据(UQ-Tree),而每个节点将索引数据的概要信息发送到super-peer中,super-peer利用这些概要信息建立索引,所有的super-peer再通过相互共享索引信息而构成一个全局索引。最后基于全局索引进行两步的处理框架,空间剪枝spatial-pruning和分布式剪枝distributed-pruning。实验表明空间剪枝算法减少了大量的网络通信代价,而分布式剪枝算法降低了大量的计算代价。本文对在P2P网络的不确定数据的KNN查询提出基于P2PR-tree索引的查询算法。本文基于现有的集中式的不确定数据的KNN查询方法,提出了一种在P2P环境中对不确定数据的KNN查询方法。该方法在super-peer的网络拓扑结构的基础上,以一种扩展的R树(P2PR-tree)作为此查询算法的空间索引结构,解决P2P环境中对多维数据的索引。并且结合两种剪枝策略减少了候选集的大小和查询在P2P网络中的网络代价。实验结果表明,该方法在减少网络代价方面具有较高的性能。针对“非结构化P2P网络下基于概率的不确定排序查询”:本文首先利用Quad-tree构建一个分布式的不确定数据的索引,并基于索引提出了一个空间剪枝算法。然后,根据局部top-k概率与全局top-k概率之间的关系提出不确定数据成为top-k概率的上界,根据top-k概率与skyline概率之间的关系提出不确定数据成为top-k概率的下界,通过两种概率剪枝算法来减少top-k查询在网络中的传输和计算代价,并且进一步减少候选集大小。最后本文采用采样的方法来计算候选集的top-k概率以确定最终的top-k查询结果。大量的实验验证了算法的有效性。针对“P2P网络下在线数据分类”:本文提出了一个基于OS-ELM的集成分类框架来对分层次的P2P网络中的数据进行分类操作。这个框架是利用OS-ELM的增量学习原理在P2P网络中生成一个系宗分类器。其中包括两个实施方法, one-by-one集成分类方法和parallel集成分类方法。此外,本文还提出了一个基于数据空间覆盖的网络节点选择的方法来减少在分类过程中产生的通信代价和计算代价。实验结果说明本文提出具有较高的效率和效力。