论文部分内容阅读
大数据正如雨后春笋般地出现在各行各业中。在最近几年中,各种新的、强大的数据源持续爆炸式地增长。并且各个数据源产生的数据规模越来越大,如:原始的网络数据、LBS应用中的时空数据、零售制造业的RFID数据等等。不同数据源中产生的数据蕴含着巨大的商业价值。从大数据中挖掘出隐藏其中的价值,对于企业改进现有的应用以及开辟新的业务模式具有很强的现实意义。但是,大数据不仅仅指数据的容量大,与之相比,大数据的速度(例如,数据传输和接收的速度)、多样性、复杂度均有所增加。大数据的这些特征可以用3个V来形容,即:Volume(海量)、Variety(多样)和Velocity(高速)。这给大数据分析带来了一定的难度,驾驭大数据已经成为很多企业的一大挑战。目前,利用传统的数据仓库以及商业智能系统分析大数据已经显得力不从心。针对大数据的查询,也是大数据分析的一个极为重要的部分。索引技术是数据管理中的重要技术,能有效提升数据管理性能。因此,本文选择海量数据索引技术作为研究重点,以Hadoop作为系统平台,研究了分布式环境下的索引建立问题,并通过实验验证了新索引方案的有效性和高效性。本文的主要贡献包括以下几个部分:海量数据索引.本文对针对海量数据在MapReudce框架下建立索引的问题进行了详细研究。并详细回顾了已经取得的一些相关工作,总结了已有工作的得失。同时,本文提出了两种新的索引方案。实验表明本文提出的两种索引技术方案具有高可用性以及支持高效地数据查询分析。·MR-Tree索引.本文设计了一个有层次的索引技术称为MR-Tree索引。它是一个基于树的层次索引,它融合了B-tree索引技术,同时巧妙地利用了HDFS分布式文件系统的存储特性。另外它也支持索引在分布式的环境中的创建以及遍历,同时能够支撑对大规模数据的索引能力。分布式环境下的索引创建操作也使得系统具有可扩展性与健壮性。实验部分验证了MR-Tree索引的有效性以及高效性。·DMRA-Tree索引.本文同时也提出了一种基于MapReduce框架的面向空间数据的聚集查询索引解决办法:DMRA-Tree。该方法能够有效地提升聚集查询性能,并且能够返回准确度高的近似查询结果。实验部分验证了该方法的有效性和结果准确度。