海量数据压缩、操作和处理方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tzflz108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术高速发展的海量信息时代,海量数据管理技术已经成为社会信息化的迫切任务。如何有效地存储和管理海量数据并高效地支持海量数据上的查询,对数据库管理系统提出了严峻的挑战。海量数据库被广泛地应用于地震监测、天气预报、物理化学实验等实际应用中,如科学与统计数据库,其数据最大的特点是存在大量的数据冗余,即相同的数据在不同的地方多次重复出现。如果对这种类型的关系数据直接进行存储,不仅浪费大量的存储空间,而且降低了查询的效率。另外,这类数据的模式相对稳定,属性值域有限,新产生的数据只追加到当前数据末尾而不更新已有内容;并且在数据上的查询大多只与众多属性中的少数几个相关。数据压缩技术与数据库技术进行结合,对海量数据库的存储与查询进行处理,形成了压缩数据库技术。压缩数据库技术研究的内容主要包括数据压缩方法、数据操作算法和查询处理技术。本文提出了海量数据库中数据的压缩和存储方法、压缩数据上的数据操作算法和查询处理技术。本文提出的压缩算法采用列存储的思想,使用二进制编码、一元编码、K-of-N编码和叠加编码对数据进行压缩,将属性对应的编码数据按照编码位进行扩展游程编码存储。本文提出了压缩数据上无需解压缩的数据操作算法,包括选择操作和投影操作,将对原始数据的查询操作转化为对压缩数据编码位的操作,简化了查询的实现。利用上述思想设计并实现了一个海量数据压缩和查询原型系统。理论分析和初步实验表明,采用列存储思想对海量数据进行压缩和存储可以很好地提高存储空间利用率、降低查询代价和提高查询效率。
其他文献
运用计算系统虚拟化技术,服务器上可以同时运行多个虚拟机,在所有虚拟机都执行计算任务的情况下,有可能产生资源争用的情况,增加了程序的执行时间,与此同时,有些服务器处于负
在数据同化的主要应用领域——数值天气预报中,随着观测技术的突飞猛进和各种观测设备的应用研究,区域和全球观测数据呈现大规模的增长,不同设备和观测地点造成的误差以及大
在计算机语言类相关考试中,编程题的自动阅卷技术是一项非常具有实用价值的应用,也是实现计算机在线考试以及全自动阅卷的一个关键技术。由于程序实现同一功能的代码具有多样化
近年来,随着电子商务的发展和网站用户数量的增长,用户评价信息进入爆炸性增长阶段。电子商务网站的用户评价信息一方面是潜在用户做出购买决策前的重要依据,另一方面也是厂
随着嵌入式技术和故障诊断技术的发展,基于嵌入式的故障诊断已经成为故障诊断技术领域研究的热点之一。对于面临目前我军已装备部队的电子设备技术含量高,涉及学科多,使用现场分
人体检测与跟踪是安全视频监控中的核心技术,是实现计算机视觉的基础,也是该领域中的研究热点,同时涉及图像处理、模式识别、自动化控制、计算机图形学、机器学习和人工智能等多
我国CAI经过前几年较大规模的研究与开发,己较好地实现了利用文字、声音、图形、动画和视频图像等对知识进行全方位、多角度和多种形式的表示和再现。近年来,工程制图CAI有了
现代企业在生产或电子商务过程中,需要产生和交换大量的数据,这些数据分别由不同的应用产生,具有不同的格式和含义。如何有效的处理和传输这些数据,对于提高企业的效率、方便数据
历史作品编纂简称历史编纂。目前,历史编纂的主体是历史学家,但其编纂手段仍十分原始。在传统的编纂实践中,历史学家在收集完一定的史料和文献之后,通过将相关史料和文献进行
云计算作为一种新兴的商业计算模式,是目前研究和应用最为广泛的分布式计算。云计算拥有规模庞大的服务器集合和大量的用户群体,需要频繁的进行资源分配。当前,如何在满足用