基于HBase的非结构化数据查询系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:mtv138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化建设的发展和进一步深化,产生和积累了海量的非结构化数据,这些数据具有大量的链接关系,数据规模巨大,数据模式也在不断变化。企业的业务分析决策需要对这些大量的数据进行细粒度有效的提取,支持后续的数据查询,尤其是关键字查询和基于文档链接关系的排序是其中重要的需求。如何有效管理这些海量、带有大量链接关系的非结构化数据,从而支持企业的核心业务,辅助决策分析,给传统数据管理技术带来了新的挑战。  传统数据管理系统由于体系结构所限,很难扩展并有效管理这些数据。针对这一问题,现有研究基于目前流行的分布式云计算平台Hadoop来实现海量数据的存储、排序和查询,并研制了若干系统,如侧重于快速迭代排序的HaLoop和侧重于实时数据查询响应的HBase。但是,这些系统不能同时兼顾基于链接关系高效的文档排序、快速的关键字查询和支持数据模式多变的需求。  本文基于目前的研究现状,探讨了HBase环境中基于链接关系的高效文档排序和快速关键字查询的实现策略,具体来讲,本文的贡献如下:  提出在HBase环境中基于过滤和估计的高效PageRank算法。本文通过对结点收敛性的判断,借助HBase高效的随机读和Filter特性对已经收敛的结点进行过滤,从而减少后续迭代中已收敛结点不必要的读取、传输、计算和写出操作,进而减少每一轮迭代的运算量;PageRank算法实际上是求Markov矩阵的第一个特征向量,我们可以假设k-2轮结果是第一个和第二个特征向量的线性组合,那么就可以不必迭代到第k轮就可以通过k-2轮的结果对第一个特征向量进行估计,降低一些准确性,减少迭代次数,加快收敛速度。这样既减少了每一轮的计算代价,同时也减少了总的迭代次数,从而提供高效的PageRank算法。  提供基于HBase的高效关键字查询。在HBase环境中基于其高效的Rowkey查询机制,实现了高效的倒排索引,结合基于过滤和估计的高效PageRank算法对带有大量链接关系的非结构化数据进行有效排序,从而提供高效、准确的关键字查询,同时基于统计信息与查询代价模型对关键字进行预取和缓存,实现了较高的查询效率。  设计与实现了基于HBase的非结构化查询系统,通过在真实数据集上的实验和测试,验证了本文所提出方法的有效性。  
其他文献
随着集成电路的发展和电子产品的日新月异,微处理器的性能要求在不断的提升。当前单核微处理器体系结构研究主要通过挖掘指令间的并行度来提高微处理器的性能。流水线、乱序多
泛型程序设计可以大幅度提高程序的可重用性、可靠性和开发效率,使建设软件构件工厂的理想得以实现。泛型约束机制可对泛型参数的合法性进行检测及验证,从而使得软件的可靠性和
本文围绕移动摄像机条件下的海上船只目标检测和跟踪开展工作,重点研究了基于“在线学习”的目标跟踪算法。为了使方法对于不同场景具有适应性,我们将目标检测和目标跟踪分别看
随着航天技术的不断发展和空间活动的日益频繁,视频在航天领域中的应用和需求越来越广。星载视频数据量巨大,在进行存储或下行之前必须进行有效的压缩。  TMS320C64x系列DSP
模态逻辑是研究必然、可能及其相关概念的逻辑。模态逻辑是逻辑学最为重要的分支之一,它的理论、思想、技术和方法不仅是逻辑学中占有重要地位,而且在其他领域,如计算机科学、语
人脸识别是计算机视觉和模式识别学科前沿,同时在国家公共安全、信息产业也具有广阔应用前景。然而,在实际场景的应用中,人脸识别系统的性能通常会受到一些因素的影响,比如:光照
随着科技的快速发展,人工智能技术得到了广泛应用。作为人工智能的重要子领域,自然语言处理一直是众多学者的研究热点。自然语言处理领域有众多具有挑战性的任务,围绕这些任务,很
物流行业是“十二五规划”中涉及的重要行业,是我国未来经济发展的重要组成部分。冷链物流是物流行业的一个重要分支,而冷藏运输是冷链物流的重要一环,公路冷藏运输在总体冷藏运
本文对现代维吾尔语多策略统计、多维度动态特征数据分析、词性标注关键技术、常用词表和现代维语词语标注规范的研制等词汇一级信息处理过程中涉及的关键技术及方法进行全方
非功能需求在软件开发过程中起着重要的作用,甚至直接决定了软件项目的成败。很多非功能需求直接约束了系统的实现策略。如何根据非功能需求确定软件系统的最优的实现策略成为