面向海量数据的索引技术研究

被引量 : 0次 | 上传用户:hzh19780101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据正如雨后春笋般地出现在各行各业中。在最近几年中,各种新的、强大的数据源持续爆炸式地增长。并且各个数据源产生的数据规模越来越大,如:原始的网络数据、LBS应用中的时空数据、零售制造业的RFID数据等等。不同数据源中产生的数据蕴含着巨大的商业价值。从大数据中挖掘出隐藏其中的价值,对于企业改进现有的应用以及开辟新的业务模式具有很强的现实意义。但是,大数据不仅仅指数据的容量大,与之相比,大数据的速度(例如,数据传输和接收的速度)、多样性、复杂度均有所增加。大数据的这些特征可以用3个V来形容,即:Volume(海量)、Variety(多样)和Velocity(高速)。这给大数据分析带来了一定的难度,驾驭大数据已经成为很多企业的一大挑战。目前,利用传统的数据仓库以及商业智能系统分析大数据已经显得力不从心。针对大数据的查询,也是大数据分析的一个极为重要的部分。索引技术是数据管理中的重要技术,能有效提升数据管理性能。因此,本文选择海量数据索引技术作为研究重点,以Hadoop作为系统平台,研究了分布式环境下的索引建立问题,并通过实验验证了新索引方案的有效性和高效性。本文的主要贡献包括以下几个部分:海量数据索引.本文对针对海量数据在MapReudce框架下建立索引的问题进行了详细研究。并详细回顾了已经取得的一些相关工作,总结了已有工作的得失。同时,本文提出了两种新的索引方案。实验表明本文提出的两种索引技术方案具有高可用性以及支持高效地数据查询分析。·MR-Tree索引.本文设计了一个有层次的索引技术称为MR-Tree索引。它是一个基于树的层次索引,它融合了B-tree索引技术,同时巧妙地利用了HDFS分布式文件系统的存储特性。另外它也支持索引在分布式的环境中的创建以及遍历,同时能够支撑对大规模数据的索引能力。分布式环境下的索引创建操作也使得系统具有可扩展性与健壮性。实验部分验证了MR-Tree索引的有效性以及高效性。·DMRA-Tree索引.本文同时也提出了一种基于MapReduce框架的面向空间数据的聚集查询索引解决办法:DMRA-Tree。该方法能够有效地提升聚集查询性能,并且能够返回准确度高的近似查询结果。实验部分验证了该方法的有效性和结果准确度。
其他文献
本文依据历史与逻辑相统一、多学科交叉融合的研究方法,以马克思利益范畴与社会矛盾理论的关系为切入点,结合历史、理论和现实来建立逻辑框架。在考察马克思对利益范畴阐释的
作为"欧洲文化重镇"的柏林一直缺少能展出本地艺术家作品的当代艺术馆。柏林临时当代艺术馆的建成弥补了这一空缺。建筑选址于市中心的博物馆岛,以"过客"的姿态与周围环境对
<正>本次国内股市的动荡,只在涨停和跌停间选择,这种非此即彼的极端方式,传递出中国经济面临的深层次挑战信息。无论你是否察觉,我们正好活在厚重的一段历史里。若干年后,谈
基于时速350km中国标准动车组平台,以2022年北京冬季奥运会为契机,研发复兴号智能型动车组,内容包括:开展外观涂装及内饰和设施研究,展现奥运主题及人文关怀;开展智能化研究,
<正>数字时代,知识的重要性将提升、交易成本将减少、个体的价值将更大,有很多行业,将可能被自商业的形态打破原有的秩序,每个人都可以构建出轻资产的自商业,尤其是依托于智
<正>在讨论当代台湾建筑和建筑师时,必然会涉及台湾的历史和文化的发展。台湾建筑受地缘政治和历史的影响十分明显,地理条件独特,政治风云的变幻对台湾的建筑产生了根本性的
<正>经济发展新常态是中央全面把握国际经济政治发展格局、深刻认识我国基本国情和发展阶段所作出的重大科学判断,是当前和今后一个时期关系我国经济持续健康发展的重要战略
<正>江西省赣州市位于江西省南部,是我国钨、稀土等有色金属矿业经济区和果业优势产区。上世纪80年代末原地质矿产部响应党中央国务院号召,在赣州市开展定点扶贫。20多年来,
扬黄灌区发展中,节水高效农业发展对地区的经济发展有着较强的推动作用。灌区农业高效发展则需要考虑到水资源的使用情况,既然提到了节水,那在实际农业发展中是否真正达到节
阿赫玛托娃是俄罗斯十九世纪具有世界声誉的诗人之一,被称为是“俄罗斯女性话语权的第一人”,在其坎坷的一生中创作了众多独特精致的诗歌。诗人在早期的爱情诗作中就开始积极建