面向大数据集查询的索引与数据组织优化研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xue852456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为新一代的IT商业模式,云计算受到了广泛关注。然而,云计算在急速发展的同时也带来了一系列的问题,首当其冲的就是云端数据的有效管理问题。如何高效的管理云端数据、提高系统效率成为一项具有重要意义的研究工作。查询性能会对用户的查询体验造成严重影响,而索引技术和数据组织优化技术在云数据管理系统中能够减少查询使用的CPU时间、磁盘读取等操作,从而有效地提高云数据管理系统效率和查询处理性能。因此,云计算系统需要构建有效的索引结构和优化数据组织方式。综上所述,云计算系统中的索引技术研究和数据组织优化技术研究是具有重要意义的研究课题。本文的研究工作针对云计算系统中查询处理技术的关键——索引技术和数据组织优化技术。本文的创新点包括以下方面:首先,针对实际应用中经常存在的多个维度数据的范围查询问题,提出了一种新型的分布式多维数据索引方案BSCBF-index。实验证实:该索引方案能够带来较低的用户访问延迟,从而可以大大提高用户的查询体验。其次,针对实际应用中经常存在的文件“热点”问题,即某一时间段用户对某一文件的查询请求激增导致当前的文件副本数目难以满足实际需求,本文对HDFS架构进行优化,提出了一种Hadoop下基于文件访问热度的副本策略,以提高系统的稳定性和文件访问吞吐率。实验结果显示,该方案在一定的资源开销下,可以显著降低用户访问时延,从而大大提高用户的查询体验。
其他文献
玉米作为世界三大农作物之一,在世界范围的播种面积和总产量中占有重要的地位,是重要的粮食作物和油料作物。我国是一个农业大国,农作物的种类众多,玉米是目前种植面积最大的
K-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的
随着互联网信息的飞速增长,越来越多的人将搜索引擎作为网络信息获取的主要手段。但是,在浩如烟海的互联网信息世界中,通过现有的搜索引擎,人们寻找有用信息还是存在着很大的
随着信息技术和互联网的高速发展,互联网上的多媒体资源数量呈爆炸性增长,用户要在如此庞大的资源中快速找到自己感兴趣的资源是非常困难的。推荐系统就是针对不同用户预定义的
近年来,随着互联网中数字图像不断激增,如何在海量图像中迅速准确地进行分类显然已经成为亟需解决的问题之一。现有的许多图像分类方法一般是通过提取图像底层特征来获得图像视
关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行
本文的目的是研究进化算法,特别是具有量子行为的粒子群算法,解决多目标优化问题。在科学应用和实际应用领域中,普遍存在着多目标决策的问题,各个目标之间往往是相互冲突的,
税收制度作为规范国家和纳税人之间税收分配关系的法律制度,在现实经济生活中具有十分重要的意义。而税收流失的现象严重影响着国家的发展。因此,加强税务信息化建设,有效减少税收流失显得尤为重要。完善的税收体制是维护国家权益的重要保障。GB18240.7国标样机系统的研发项目,主要是针对使用POS系统、业务系统进行企业管理、财务管理的大型零售商场、超市、大卖场以及大型连锁快餐业目前在用的收款机系统进行税控改
近年来,以Web服务为基础的面向服务的体系架构的迅速发展,为互联网应用提供了一种共享数据的有效手段。Web服务组合为企业业务应用提供了极大的灵活性。然而,随着网络上Web服务
随着国内移动通信网络即将向3G演进,数据业务势必将得到空前发展。无线应用协议(WAP)是互联网和移动通信技术的有机结合,是一种向移动终端提供互联网信息内容和增值服务的全