基于聚类和K2-tree的大规模图数据压缩表示技术

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:shiguangli010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和用户数量的增加,众多新兴应用正以前所未有的方式和速度产生并积累着大量的数据,如何对这些规模巨大的数据进行分析和应用正成为许多领域所面对的机遇和挑战。图数据作为一种重要的大数据类型,在互联网分析、社交网络分析等领域扮演着重要角色。然而随着图数据规模的剧烈增长,有限的计算机内存已经渐渐无法满足对大规模图数据的存储,因此设计合理的图数据压缩表示算法,使其能够完全放入计算机内存进行计算,将有效提高分析和计算大规模图数据时的效率。  K2-tree是一种基于邻接矩阵的图数据压缩表示算法,其利用邻接矩阵稀疏和集群的特性,可以实现对邻接矩阵的压缩存储。由于图数据对应的邻接矩阵表示中具有一定的数据分布特征,因此使用聚类算法对图数据的邻接矩阵进行聚类分析可以发掘其潜在的数据分布特征,例如稠密区域的分布等。因此,本文将聚类机制与 K2-tree算法进行结合,并作了相关研究,主要工作内容包括:  (1)依据对图数据对应邻接矩阵中数据分布特性的分析,提出了一种基于密度的图数据聚类算法BD_Clustering和一种基于网格、密度和距离的图数据聚类算法BGDD。  (2)结合聚类算法和 K2-tree技术提出了新的图数据压缩表示算法,即分别为BDC_K2-tree和BGDD_K2-tree,并且利用DACs编码技术优化了存储结构,实验结果表明该算法能够缩减图数据的存储空间,有效提高空间利用率。  (3)在新的图数据压缩表示算法的基础上,设计并实现了基础的图数据查询算法,包括查询图顶点的前向/反向邻居信息和检测两个图顶点之间的直接连通性,实验结果表明该算法能够支持快速的图数据信息查询。
其他文献
近年来互联网的发展给人们的生活带来了很大变化,特别是现在Web2.0方式下人们有了更丰富方便的网上生活,而作为互联网主力军的电子商务网站也是赶着互联网大潮不断地上升发展。
随着软件行业的快速发展,软件的开发周期和开发成本越来越被重视,软件测试作为软件开发过程中的一个重要环节,不仅仅为软件产品提供质量把关,而且还能降低人力重复投入的风险
随着Web服务技术的快速发展和广泛应用,越来越多的Web服务分布在Internet上,与此同时,功能相似的Web服务数量也快速增长。单个Web服务的功能已经无法满足复杂应用的需求,因而
随着计算机技术的飞速发展,软件系统已经被广泛应用到人们工作生活的各个领域,人们对软件可靠性的要求越来越高,因此软件可靠性的研究已成为计算机发展的新方向。UML作为面向对
随着WebGIS的快速发展和应用,其数据可视化处理中的静态缓存技术也被广泛的采用。然而在静态缓存处理中所产生的海量瓦片数据,给数据管理带来沉重的负担,而目前对于此类数据
生物特征识别技术如今在人们的生产、生活等社会活动中扮演着越来越重要的角色,对身份识别的贡献尤为突出。掌纹特征因其稳定、独特、准确、可靠的特性引发了广泛关注。尽管
全球IPv4地址已经于2011年全部分配完毕,IPv6作为下一代互联网的核心走上历史的舞台。IPv6技术采用了新的网络理念,提供了近乎无穷的地址空间的同时,还提高了网络的安全性、
随着电子商务的高速发展,越来越多消费者参与到在线评论互动中,由此产生了大量在线商品评论,并且数量呈爆炸式增长。然而巨大的用户群与潜在的利益关系,使虚假评论被广泛地制造与
随着经济的发展,我国的城建项目逐渐增多。如何有效地管理和科学地维护在城建项目中使用的各类工程机械已成为其管理者和运营者所面临的问题。因此目前提出了很多对工程机械
作为云计算的关键性基础设施,系统级虚拟机技术是当前计算机体系结构领域的研究热点之一。系统级虚拟机技术成功的将许多物理设备抽象成内存或硬盘中的数据结构,如网卡、硬盘、