海量日志数据处理与查询优化技术研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:tang070932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网及各行各业信息化的快速发展,企业和单位需要处理的数据量越来越大。传统文件系统已经不能满足海量数据的存储需求,分布式文件系统成为解决海量数据存储的一种有效方式。同时,由大数据量引发的大量计算,也推动并行计算的高速发展。日志数据是常见的一种海量数据,本文针对海量日志数据,研究、设计和实现了其处理与查询优化技术,主要工作和创新点如下:  (1)设计实现了基于Hadoop的并行特征匹配算法。针对海量日志数据,结合WM算法,对日志中的关键字,如Warning,Exception,Error等,进行并行特征匹配。实验证明,该并行优化技术可随集群节点数近似线性的提高匹配性能。  (2)提出基于关键列预处理优化的无冗余分布式存储和查询模型。该模型针对海量结构化日志数据,首先选定关系表的某些列作为关键列,然后按照关键列分布式存储数据,并记录相关存储信息作为元数据索引。对含有关键列的查询,根据元数据索引减少单次查询的数据量。模拟实验证明,该方法可显著提高系统吞吐率。  (3)提出基于关键列预处理优化的冗余分布式存储和查询模型。该模型在上述模型(2)的基础上,通过增加少量冗余开销,进一步提高系统吞吐率。同时,结合Hadoop分布式文件系统的备份机制,对冗余数据进行了优化处理。
其他文献
本文以苏州市污水管道系统规划项目为背景。管道系统规划通常涉及管道布局优化和管道水力参数优化两部分。通常情况下,污水管道系统投资较大,偿还期限长,这就需要提供一种比
三维空间数据的可视化是近年来计算机图形学和地理信息系统相结合而产生的一个新的研究热点。利用地理信息系统所采集的地质数据资料,通过地形和地物的建模,纹理映射,光照模
软件复用为避免软件开发过程中的重复劳动提供了解决方案,可以提高软件开发的效率和软件的质量,而软件构件技术是实现软件复用的关键技术。构件库是支持软件构件化开发的一个
随着互联网规模不断地迅速增长和网络应用类型的日益多样化,网络流量也在不断递增。当网络流量不超过网络带宽容量时,各种业务流的带宽需求就能得到满足;但是当网络流量超过网
光学相干层析技术(OCT)由于具有高分辨率、无损伤、非侵入以及实时成像等特点,已经广泛应用于生物医学领域。先天性心脏病(CHD)是常见的先天畸形之一,通过研究心脏发育过程,可以帮
随着北京申办2008年奥运会的成功,国家越来越重视跳水运动的科学研究。本文针对跳水运动视频的跟踪问题进行研究,具体工作体现在以下几个方面: 改进了三参数的全局运动估计方
随着信息技术的发展和网络化经济的快速进步,制造业信息化、规模化和专业化越来越强,产品开发趋于分散化。在这一背景下,异地协同设计成为提高产品异地开发工作效率的一项重要技
动画自动生成技术(Automatic Generation of Computer Animation)是一个崭新的课题,它由中科院数学所的陆汝钤院士提出,是人工智能技术与电影艺术,图形学技术的结合,是以底层
随着全球经济一体化趋势的加强,加入WTO后跨国公司的迅速增长,国际物流需求将会有非常大的增长,这必将促进第三方物流的迅速发展,特别是能够提供综合物流服务的第三方综合物流企
近年来随着软件开发的日益复杂与软件成本的大幅度提高,测试工作所占的费用和时间比重也日益加剧,其中回归测试用例选择问题尤为突出。回归测试用例选择问题的核心就是如何在