基于HBase的海量图数据管理研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:xhl8727050
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,异质信息的规模正在飞速增长。具有广泛应用的图数据不仅在数量上急剧增长,其包含的信息也更加多样化,因此对海量图数据进行有效地管理具有重要意义。被广泛使用的RDF框架,是语义数据描述的标准,可以支持图数据的多样性,被广泛应用于异质网络的描述,非常适合描述海量图数据,因此本文采用RDF作为海量图数据的组织格式。在工业界和学术界有很多针对RDF格式的图数据管理的研究,其中传统关系型数据库无法支持大规模图数据的存储和查询,而分布式的管理方案尚不成熟,但是很有发展前景。本文对海量图数据的管理展开了一系列研究,旨在提出一种新的分布式的图数据管理方案,支持海量图数据的存储和高效查询,并可以灵活地进行图数据的清洗或转化,提取需要的网络,从而支持后续的图计算,同时用可视化的方式向用户展示不同规模和类型的数据。本文选择使用RDF格式来组织海量图数据,并设计出可以支持海量图数据存储和查询的方案。首先提出基于HBase的RDF图数据存储方案,基于垂直分割的思想,为每个属性建立两张表,用较少的空间实现海量图数据的存储,同时提出基于HBase的Path索引的理念以支持高效查询;其次讨论了海量图数据的查询方案,基于上述存储方案论述了基本的查询策略,对于复杂查询,提出利用Path索引来提升查询效率的理论,指出这种方案可以减少多表连接的次数,定量地分析了这种方法带来的效率提升,在此基础上,通过MapReduce计算框架,将查询压力分布在各个节点上,进一步提升了查询效率;最后设计和实现了原型系统的核心模块。基于上述的存储和查询策略,设计和实现了部分核心模块,包括基本查询引擎、网络提取模块以及查询结果的可视化模块等。本文对分布式的海量图数据管理方案进行了有效的探索,通过大量的实验和案例分析验证了方案的可行性。
其他文献
现代壁画中有大量的作品是通过各种材料制作加工而成的。这其中有一些仅仅是材料的堆砌、陈列,属于不成功的或一般性的作品,甚至于是些很笨拙的作品。但也有一些是把材料的原
企业研发投入是企业自主创新能力的最主要影响因素,决定企业的生存与发展,因此,引起学者们的广泛关注。以往文献的研究多聚焦于家族所有权对研发投入的影响,而本文认为应当深
甲烷干重整反应可综合利用两种温室气体(CH4和CO2)转化生成合成气(H2和CO),其H2/CO比为1:1,有利于费托合成反应制备化学品和能源燃料。因此,甲烷干重整反应受到科学研究者的广泛
地磁暴会在电网中激发地磁感应电流(Geomagnetically Induced Current,GIC)。GIC会导致线路中的变压器产生直流偏磁,造成变压器烧毁、引起电网设备保护误动等故障,甚至引发大
建筑火灾作为一种发生频率较高的火灾,通常造成的人员伤亡及财产损失惨重,建筑结构抗火性能的研究也成为近年来国内外学者研究的重要课题。钢筋混凝土结构因其良好的材料性能
针对当前高光谱图像非线性梯度解混算法的局限性,本文提出了基于神经网络的高光谱图像非线性解混算法和基于神经网络和差分搜索算法的高光谱图像非线性解混算法。两种算法构
布里渊散射是光纤中重要的非线性效应之一,是光纤中入射光波和声波之间相互作用引起的一种非弹性散射现象。光纤中的布里渊频移与温度和应变呈线性关系,因此,光纤中的布里渊
《新安晚报》创刊于1993年,是安徽省发行量最大、影响力最广、广告收入最多的都市报,在全国的都市报中也属于佼佼者。2010年,媒介融合中的《新安晚报》成立网站,因此笔者选取
在信息爆炸式增长、多媒体技术及互联网发展日新月异的时代,人与人之间对各种多媒体资源共享的需求越来越高,大量的图片共享需要构建高效的检索系统。现有的社交图像搜索技术
当前社会,在大数据迅猛发展的势头下,信息量呈现出爆炸式增长。面对海量数据的冲击,越来越多的用户需要个性化和针对性的信息推荐,高校图书馆作为高校学术研究的主要信息提供