分布式并行索引研究

来源 :电子科技大学 | 被引量 : 14次 | 上传用户:suc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用领域的不断扩大,数据的规模越来越大,查询也越来越复杂,分布式并行索引以其高性能而逐渐成为解决这类复杂问题的有效手段,并且成为数据挖掘、数据仓库、网格计算和普适计算等研究中的一个热点问题。本文首先对分布式并行索引的研究现状做了详细的分析,在此基础上,提出一种新的、全面的分布式并行索引处理框架—DPIF,并对相关的索引结构、索引数据分配、索引复制策略、索引数据迁移和重构进行了深入研究。在对索引结构的研究中,我们提出一种适合于分布式并行的新索引树结构——DPB+-Tree,此索引树以B+树和hash结构为基础,其叶子结点被组织为有n个散列表元的hash表链,并且从树的根结点到叶子结点,结点的副本数量逐渐减少。DPB+-Tree综合了B+树和hash表结构的优点,同时考虑了副本更新、数据迁移和负载均衡等各个方面的性能。在DPB+-Tree结构的基础上,我们研究了索引数据分配和副本分配策略。其中索引数据分配采用了基于值范围分片的策略,并通过调整范围的上下界来调整每个分片单元的大小。而副本的分配是动态的,其处理准则是根据系统的访问统计数据,触发对系统副本的添加或者是减少,或者是副本的迁移,从而达到最佳的负载平衡。在索引复制策略的研究中,首先考虑了副本复制的原则,其包括更新/检索比、节点机负载和可靠性需求。然后描述了索引副本的建立过程和更新机制,其中索引副本的建立允许一个新的副本学习先前的副本,而索引副本更新主要基于消息来完成。此外,根据DPB+-Tree中索引数据的多副本特性,采用了一种模糊调度机制来进行副本间的任务调度,以改善系统的负载均衡和响应特性。接下来对索引数据迁移和重构进行了研究。首先根据DPB+-Tree的特点,提出一种开销较小的索引重构策略,此策略通常情况下只会影响索引的两级。然后提出一种纯分布的基于阈值的数据迁移策略,通过两个阈值的设置,来判断节点机上的索引负载系数是否超过了临界值并且有别的节点能够接收数据,若是则触发数据迁移,数据迁移的过程主要由结点迁移来完成。<WP=6>最后,为了验证DPB+-Tree系统的有效性及评估其性能,我们在响应时间、吞吐率、资源利用率和负载平衡度四个方面对DPB+-Tree进行了大量的模拟研究。模拟结果表明,DPB+-Tree系统不仅极大地提高了系统查询效率,而且还较好地解决了分布式并行索引系统中索引更新开销问题,在与其它相关策略,如CPB方法的比较中具有明显优势。
其他文献
<正> 青藏高原上的那梭格勒峡谷,对不少人来说还相当陌生,但在探险界它却赫赫有名。当地人说峡谷中有一种食人怪兽,理由是曾有胆大者或迷路的牧民进入谷中,大多一去不复返。
小庭院作为景观园林中的一种,面积较小,面对的人群相对固定。其最大的特点就是将大自然浓缩到个人的居住场所,使居住者尽量远离喧嚣,享受"结庐在人境,而无马车喧"的安谧氛围[
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨氟伏沙明与帕罗西汀对老年抑郁症的治疗效果。方法:选取老年抑郁症患者174例,随机分为观察组和对照组,每组87例。观察组给予氟伏沙明治疗,对照组给予帕罗西汀治疗。
喜读《湖北珠算》1997年第3期王昌水老师大作《“九九九”协助“睡算八十八归》,获益良多,王老以耄耋之年,亲自实践体验,介绍了“睡算”的体会,总结出“睡算”有利于脑中算盘图像
<正> 商除法是目前人们进行珠算除法运算时普遍采用的一种方法,它又分为隔位商除法和不隔位商除法即改商除两类,改商除较之于隔位商除法而言具有定位快速,简便,减少拨珠次数
目前,患者医疗知情同意权实现十分艰难,究其原因,主要体现在四个大的方面:一是来自于医学本身的专业性.这种专业性使绝大多数患者难以真正知情;二是因为医务人员存在不尊重患者知情
流量测量在当今工业生产中有着重要的作用,基于光纤系统的流量测量方法已成为其研究的主要方向。当光在光纤中传输时,光的特性如强度、相位、频率等会受到被测量的调制,利用适当
现代机构设计包括功能原理设计、方案设计、尺寸综合、运动、动力学分析及评价决策等阶段,具有复杂性、不确定性、创造性、高精度性、综合性、跨学科性等特点,这个过程是个基于