分布式存储系统中的高效数据获取技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liyaping121416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,云系统需要提供高效并发查询服务以满足日益增长的数据密集型应用需求,而合适的索引架构对提升查询效率有重要作用。常用的数据库索引技术包括基于树的索引和基于哈希的索引。而由于云系统的分布式特性,这些传统的单机索引结构难以直接部署在云环境中,必须寻求新型的分布式索引方案。分布式索引设计领域的工作始于传统的对等(P2P)网络。比较流行的双层索引设计法是,在P2P网络各个节点先分别构建局部索引,然后从局部索引结构中“选择”一些子结构,发布到网络中的其他节点,形成“全局索引”。在P2P网络盛行之际,学术界涌现出一批基于此类网络的分布式索引系统,例如RT-CAN、CG-Index、基于Caley图的索引等等。而今,数据中心成为越来越多云系统的基础设施。数据中心网络(Data Center Network,以下简称DCN)有其特殊的网络互连结构与路由方式,特别是其物理互连结构不像传统网络(如P2P网络)那样难以定义和把握,因此,以往常常与底层网络完全分离开来考虑的分布式索引设计方案有待商榷,DCN的规律性拓扑为新型的索引构建与网络结构相结合的设计思路提供了契机。本研究希望通过以某些特定的拓扑结构为出发点,考虑该种设计思路的可行性并加以实现。我们首先关注双端口DCN——HCN,为其量身订做一套基于R树的多维分布式索引模式——RT-HCN。在构建方面,RT-HCN包含一套特定的全局索引映射规则;在查询方面,RT-HCN自含一套针对点、范围和K近邻的查询算法。同时,为了增强该索引系统在不同应用场景下的适应能力,研究还从数据倾斜、查询误报、更高维度这三个角度将一些成熟的数据处理技术整合到系统中。此外,本研究对于索引的维护更新也给予了一定考虑。RT-HCN是在双端口DCN拓扑上采用新型分布式索引设计理念的一次成功尝试。立足于网络拓扑和索引结构等角度,研究还发现了更多可能。首先,HCN在同类型DCN拓扑中因其拓扑扩展规则的高度规律性而独树一帜,这为将现有基于HCN的索引模式扩展到更多同类拓扑上提供了可能。其次,初始设计中采用的R树属于原始的高维索引结构,它在构建时间、节点重叠等方面还欠优化,可以寻求特定场景下的优化版本作为代替。最后,立足于优化后的R树,可以利用同类DCN拓扑结构的扩展特点,寻求适于某些DCN的通用的分布式索引设计思路。实验部分在亚马逊的EC2云计算平台上进行,目的侧重于两方面,一是对RT-HCN索引模式本身的性能测试,包括变量控制测试和竞争者对比测试,二是对于RT-HCN索引模式的潜在优化方案的效果检验。本研究的成果具有重要的理论与实践意义,可以为分布式环境下的索引设计提供一定程度的实践经验和理论指导,成果亦可以进一步应用于实际系统或转化为商用服务,具有广阔的应用前景。
其他文献
本研究以栽培型梁山慈竹(ZPX)以及经体细胞突变获得的稳定的不同基因型梁山慈竹新品系为材料,对其生物学特性、生物量、竹笋解剖结构、茎秆化学成分、竹材造纸性能、原纤维性能
卵巢癌是一种常见的妇科恶性肿瘤,同时也是最致命的女性疾病之一。由于潜在症状不明显,且缺乏可靠的早期筛查方法,约70%卵巢癌患者被诊断时已为晚期。不同阶段的卵巢癌患者生
目前,随着显像设备和放射性药物的发展,放射性核素显像在医学影像技术中的地位越来越重要。单光子发射计算机断层显像和正电子发射断层成像术是核医学的两种CT技术,由于它们
随着宽带网络的不断发展,在线数字娱乐领域近年来发展非常迅速,在线数字娱乐系统变得越来越复杂。如何在不断增加新功能的基础上保持软件系统的健壮性,成了在线数字娱乐系统
目的:比较改良后腹腔镜下解剖性肾上腺切除术(modified anatomical retroperitoneoscopic adrenalectomy,MARA)与传统解剖性后腹腔镜肾上腺切除术(anatomical retroperitoneo
海蓬子是一种营养丰富的盐生植物,既可以作为一种时令蔬菜,也可被当做草药食用,具有治疗便秘、减肥、防癌、抗炎等功能。由于海蓬子发芽率低,生长周期长等原因在一定程度上限
乳腺癌是女性最常见的自发性恶性肿瘤疾病,严重威胁了女性的健康。饮食是乳腺癌的一大危险因素,但是饮食中的游离态胆固醇、脂肪酸与乳腺癌之间的关系依然不明确。以往的相关
从1830年至1960年,法国对西非大陆的殖民长达一个多世纪。尽管1960年后,大部分非洲国家通过反殖民斗争获得了国家民族独立,法国的殖民体系也已土崩瓦解,但殖民记忆对法国和被
背景亚组识别是精准医学的重要手段,生存数据是临床试验中极为常见的资料类型,如何对这类数据中潜在的获益亚组进行可靠的甄别是亟待解决的问题。对于该类数据的亚组识别,常
近年来,计算机和通信技术飞速发展,5G也日趋成熟,促使着智能设备的迅速普及,各式各样的移动众包平台进入大众视野,例如滴滴打车、美团外卖、Foursquare等,涵盖了众多应用领域。相比于AMT、Wikipedia等早期的传统众包平台,移动众包应用的任务特征和工人行为更加复杂并具有动态性。对于任务请求方在众包平台所发布的任务,众包工人“自由”、“自愿”地选择接受或拒绝任务是众包应用场景的一个基本特征