P2P环境下排序查询处理和分类技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:kgfu86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和数据库技术的快速发展,如何存储和管理在网络中的海量数据是计算机领域的一个重要问题。P2P模型是一种新型的体系结构模型,其中的每个成员都可分享数据、存储以及计算资源。在数据管理、搜索引擎、数据流管理、语义网等领域具有广阔的应用前景。近年来,P2P数据管理技术已成为当前数据库领域研究的热点,而不确定数据查询处理技术以及数据挖掘技术更是目前P2P数据管理技术的核心问题。现有的相关处理技术主要采用集中式处理方式,无法适应P2P网络等分布式环境,为此本文紧紧围绕P2P环境下不确定数据查询处理技术以及数据挖掘相关技术问题展开深入研究。本文从P2P网络的拓扑结构出发,提出一些P2P环境下不确定数据相关查询的解决方法。此外,本文针对P2P环境下数据的分类问题进行了研究,并提出了基于已知分类器(OS-ELM)的分类算法。具体研究工作如下:针对“结构化P2P网络下不确定数据的top-k查询”:本文首先给出了在不确定数据集上的top-k查询的定义;然后,以chord拓扑为例阐述了在P2P环境中对不确定数据的top-k查询处理算法,并且在保序散列的基础上提出了基于upper-bound的剪枝策略及逐步合并的剪枝策略;最后,通过大量的实验来验证了本文所提出算法的性能。针对“非结构化P2P网络下基于索引的不确定数据查询”:本文对在P2P网络的不确定数据的top-k查询提出了基于Quad-tree索引的查询算法。本文在一个水平分布的super-peer网络中对不确定数据进行top-k查询。在super-peer网络中,每个节点基于Quad-Tree来索引本地的不确定数据(UQ-Tree),而每个节点将索引数据的概要信息发送到super-peer中,super-peer利用这些概要信息建立索引,所有的super-peer再通过相互共享索引信息而构成一个全局索引。最后基于全局索引进行两步的处理框架,空间剪枝spatial-pruning和分布式剪枝distributed-pruning。实验表明空间剪枝算法减少了大量的网络通信代价,而分布式剪枝算法降低了大量的计算代价。本文对在P2P网络的不确定数据的KNN查询提出基于P2PR-tree索引的查询算法。本文基于现有的集中式的不确定数据的KNN查询方法,提出了一种在P2P环境中对不确定数据的KNN查询方法。该方法在super-peer的网络拓扑结构的基础上,以一种扩展的R树(P2PR-tree)作为此查询算法的空间索引结构,解决P2P环境中对多维数据的索引。并且结合两种剪枝策略减少了候选集的大小和查询在P2P网络中的网络代价。实验结果表明,该方法在减少网络代价方面具有较高的性能。针对“非结构化P2P网络下基于概率的不确定排序查询”:本文首先利用Quad-tree构建一个分布式的不确定数据的索引,并基于索引提出了一个空间剪枝算法。然后,根据局部top-k概率与全局top-k概率之间的关系提出不确定数据成为top-k概率的上界,根据top-k概率与skyline概率之间的关系提出不确定数据成为top-k概率的下界,通过两种概率剪枝算法来减少top-k查询在网络中的传输和计算代价,并且进一步减少候选集大小。最后本文采用采样的方法来计算候选集的top-k概率以确定最终的top-k查询结果。大量的实验验证了算法的有效性。针对“P2P网络下在线数据分类”:本文提出了一个基于OS-ELM的集成分类框架来对分层次的P2P网络中的数据进行分类操作。这个框架是利用OS-ELM的增量学习原理在P2P网络中生成一个系宗分类器。其中包括两个实施方法, one-by-one集成分类方法和parallel集成分类方法。此外,本文还提出了一个基于数据空间覆盖的网络节点选择的方法来减少在分类过程中产生的通信代价和计算代价。实验结果说明本文提出具有较高的效率和效力。
其他文献
义务教育学校教师轮岗交流政策的制定有一定的理论价值,它是均衡城乡教育、校际差异的有效途径,也是提升学校管理水平、教师专业成长的重要手段。但是在实践过程中,该政策也
目前我国高校重科研轻教学的现状使高校教学质量下降,科研水平也并未提高。只有对高校教学、科研、职称评审三大评估评价体系进行改革和调整,才能实现教学与科研的双赢。
过去评价电子设备尤其是计算机主要使用两个标准:价格和性能。现在能源消耗指标已经变得越来越重要,主要原因是由于电池驱动便携设备的大量使用,包括智能手机,掌上电脑和平板电
20世纪30年代,人们创造了"歌舞片",有声电影技术的发展使歌舞片在诞生初期就得到了飞速发展。早期的歌舞片只以唱歌跳舞为主,人们观看歌舞片也只为享受音乐。歌舞片发展至今,
企业债券市场是我国金融市场的主要组成部分,然而我国企业债券的发行规模却很低,加快发展企业债券市场,进一步拓宽直接融资渠道,丰富金融投资工具,从而加快我国经济建设具有十分重
语义Web是当前Web的延伸,它赋予Web资源机器可理解的语义,从而使计算机能够更好地与人协同工作。语义Web的目标之一是推理Web上广泛存在的知识和数据,因此如何表示这些知识和
对等网络(Peer-to-Peer Network,简称P2P)打破了传统的“客户机/服务器”模式,能够提高网络工作效率、充分利用网络带宽、开发每个网络结点的潜力、具有高可扩展性和容错性,
本研究旨在探究表儿茶素(epicatechin,EC)对小鼠体外成熟培养卵母细胞线粒体DNA(mtDNA)拷贝数及其随后孤雌激活胚胎发育能力的影响。小鼠卵丘-卵母细胞复合体(COCs)在添加不
为更好地贯彻执行《会计法》,深化会计人员管理体制的改革,完善监督制约机制.促进党风和廉政建设.促进社会主义市场经济健康发展,依据财政部、监察部联合印发《关于试行会计委派制