面向数据密集型应用的数据管理关键技术研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:judge119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当代社会数据规模越来越大,且都具有海量、异构、半结构化或非结构化的特点。通过网络,基于海量数据的挖掘、分析以及处理等Web服务成为信息社会发展的趋势。针对海量信息的数据密集型应用作为这种新型服务的支撑技术已引起广泛关注。面向数据密集型应用的数据管理存在诸多难点,如海量数据的有效存储,动态、异构数据的实时更新,索引视图的建立和高效查询分析等。因此,本文针对数据密集型应用中的海量、异构、非结构化数据的管理问题,研究并开发数据存储、查询以及数据服务提供等关键技术。本文首先建立了一个可扩展、高效的面向数据密集型应用的数据管理模型(DIA-DM),针对该模型,创建了节点架构服务(DNN),数据布局服务(HDL),数据索引服务,数据压缩服务和数据存取服务。接着,设计了一种基于DIA-DM模型的查询机制(QueryM),它是一个将SQL查询转化为MapReduce作业的转换器,运用一系列的规则将一个复杂的SQL查询转换为尽量少的MapReduce作业。其核心是一种针对于SQL查询转换为MapReduce作业的作业合并算法(MR-JM),根据QueryM查询机制中定义的4条合并原则对作业进行合并。最后,设计并实现了一个数据密集型典型应用——交通数据应用平台,使用vSphere进行硬件架构,在HBase数据库中使用HDL进行数据布局存储,使用QueryM查询机制对数据进行查询。该应用平台主要分为三大模块,为数据管理、信息查询和数据统计,通过应用分析来说明该平台的实际可用性和查询效率。
其他文献
在数据库中用已有的算法对那些有噪声的、不完整的海量数据进行分析、提取,从而可以得到潜在的、隐含在海量数据当中的、对数据操作有用的信息和知识过程就被称之为数据挖掘
随着Web2.0应用和SemanticWeb研究的成熟,语义电子病历信息的查询在医学科学和信息科学领域里发展成为热点问题。在研究中,学者们抽象出各种病历信息并将其存储为语义网的RDF三
随着Zigbee无线传感器网络的广泛应用,如何通过互联网对远程监控区域进行实时监测、控制和管理逐渐成为该领域的重要研究课题。论文深入学习、研究了Zigbee技术,在此基础上设计
凭借纵向分割的灵活特性,列存储已被证明比行存储更适合查询密集的分析型应用。作为分析型应用之一的OLAP,其基本操作可以被映射为一组比较复杂且运行时间长的查询语句。研究表
关联规则是数据挖掘技术当中一个非常重要的研究方向,他被广泛应用在现实生活中的各行各业。这个规则不仅可以给人们提供行业内数据规律认可,而且能够总结出海量数据之后的隐
聚类分析是数据挖掘领域中的关键技术之一,具有广泛的应用领域。随着科技的发展,高维数据聚类的应用越来越受到科学家们的关注。相对于传统聚类,高维数据聚类有更多的难点,由
聚类分析是数据挖掘中一个重要的研究分支,已在多个领域得到了很好的应用,诸如数据分析,模式识别和图像处理等。固有的并行性、健壮性和自组织性使得作为新兴的智能仿生算法
无线网络因具有使用灵活、易于拓展等优点,得到了大量应用。相比于有线网络,无线网络存在链路数据传输率低、易丢包、易被窃听、传输时延大、节点需要电池供电等缺点。网络编
随着学科研究的不断交叉融合,现代综合评价方法逐渐呈现多元化,而且它被广泛地应用于决策、信息管理和评估等领域之中。因此,对它的理论以及有效性进行系统研究,提出更为有效的评
由于数据库显著的信息集中存放和资源共享的特点,数据库越来越多的普及到各行各业。数据库保存着企业、政府大量的机密信息以及个人的一些私密信息,如果这些信息不加任何保护措