基于三级存储系统的海量数据查询处理方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zj1280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据量超过1012的海量数据已经随处可见并且数据量还在不断增长。从成本和存储容量等因素综合考虑,目前人们大都采用将磁带库、光盘库等第三级存储设备作为海量数据的主要存储介质,并与主存、磁盘一起构成一个三级的存储系统作海量数据的存储结构。为了充分利用三级存储系统中海量数据提供的信息,需要开发出真正的基于三级存储系统的海量信息管理系统。由于三级存储系统各存储层次在数据存取性能方面存在巨大差异,为了使三级存储系统各存储层次“无缝”地连接在一起并很好地融入到数据库系统中,就必须研究设计出符合三级存储系统硬件特点的高效的查询处理方法。查询处理技术的研究是基于三级存储系统的海量数据管理系统研究中的一个重点和难点。查询处理问题的解决将极大地提高基于三级存储系统中海量信息的管理和应用水平。本文以三级存储系统中的海量数据为研究对象,研究了基于三级存储系统的海量数据的查询处理方法。根据需要访问的数据存储位置的不同(磁盘上还是第三级存储器上),将三级存储系统中海量数据的查询分为D-Query、T-Query和TD-Query三类。由于D-Query访问的数据存储在磁盘上,可以采用传统数据库处理查询的方法对其进行处理,因此本文随后重点研究了第三级存储器查询(T-Query和TD-Query)的处理方法。在分析了已有的查询处理方法后,提出了基于两次分解的第三级存储器查询处理方法。该方法将第三级存储器上的查询分为第三级存储器执行部分和磁盘查询计划两部分,并分别在第三级存储器和磁盘上进行处理。同时,利用查询分解技术进一步提高分解得到的磁盘查询计划的执行性能。随后对第三级存储器查询处理的查询优化、查询调度、查询执行以及结果收集等各阶段的关键技术进行了研究。为验证本文提出的方法的性能,我们还进行了模拟实验,实验结果表明本文提出的方法能有效地处理第三级存储器上的查询且性能优于已有的方法。最后,设计并实现了一个利用本文方法处理查询的基于三级存储系统的海量数据管理原型系统。
其他文献
本文对入侵检测系统中高效模式匹配算法进行了研究。文章首先分析了入侵检测系统中常用的模式匹配算法,并通过实验方法对BM算法、AC算法和WM算法进行了性能对比,讨论了这三个算
近年来,在金融服务、网络监控、电信数据管理及传感器检测等领域中,出现了一类新的数据密集型应用。这类应用的特征是:数据以大量、快速、时变的数据流形式持续到达,所以数据不宜
数据集成平台的作用是提供一个访问异构数据源的统一接口,使开发人员不必考虑数据模型的异构性、数据抽取、数据合成等问题。本文以电力系统领域数据现状和对数据集成的要求
随着互联网的快速发展和宽带网络的逐步普及,流媒体最近几年成为了发展的热点,而视频点播系统(VOD系统)则是目前流媒体应用的主要表现形式之一。各种形式的VOD应用将给INTERN
多标记学习是机器学习领域中的重要研究方向之一,它能够直观地反映多义性对象所具有的多种语义信息,其学习的任务是为待学习样本预测其对应的类别标记集合。近年来,研究学者
WWW和流媒体是现今Internet上最流行的两种应用。通过WWW网络用户可以很迅速、方便地取得丰富的信息资料,包括数字音频和视频文档资料。近年来,流式网络多媒体正获得越来越广
随着人类社会生活对Internet需求的日益增长,网络安全逐渐成为Internet及各项网络服务和应用进一步发展所需解决的关键问题。入侵检测作为一种积极主动防御的网络技术,已经成
冰层厚度历来是冰情检测中的重要指标之一,及时准确的了解冰层厚度可以有效预防冰凌等自然灾害,为冰上作业提供安全保障。近年来,随着电子和计算机技术的发展,对于冰层厚度测
越来越多的用户喜欢通过微博来实时分享自己的观点或者表达自己的情感,因此,面向微博的意见挖掘或情感分析成为了研究热点。其中,微博主客观分类研究是意见挖掘和情感分析研
在当今信息社会中,信息就意味着商机。随着对于信息的需求越来越强烈,人们已经不满足于通过互联网、邮件、电视等媒体获得信息了,他们对于信息的即时性要求越来越高。对于外界的