基于Hadoop的联机分析处理系统关键技术研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:zhanfeifan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,多维数据查询联机分析处理技术(Online Analytical Processing,OLAP)越来越重要。基于OLAP的多维分析技术成为企业管理人员重要的决策依据。目前,针对OLAP的研究都是面向单一数据模型的存储处理和相应OLAP查询性能上的优化。单一数据组织模式的基于关系数据库的ROLAP(Relational-OLAP)和基于多维数据库的MOLAP(Multidimensional-OLAP),无法满足在不同规模级别数据集下异构数据模型和低延迟的多维查询需求。针对以上问题,本文从不同数据组织模型的查询规划、查询解释、缓存查询优化机制等方面改进,设计和实现了一个可扩展性和高效性的分布式混合型联机分析处理(Hybrid-OLAP,HOLAP)系统。该系统旨在解决不同规模级别数据集的多维查询,根据不同多维组织的实现模式作出高效合理的查询处理。基于该系统下的研究主要包括以下四个方面的内容:第一,针对传统ROLAP系统无法高效地解决大规模数据集的多维分析问题,提出了一个能够在Hadoop环境下,满足不同规模级别数据集进行快速多维查询分析,同时支持Hive的MDX(Multidimensional Expressions)查询解释和聚集方法,以及基于Hbase预计算缓存机制的多维查询优化方法的HOLAP系统架构。第二,针对大规模数据集上的Hive多维查询优化,通过一种构建Hbase立方体缓存的分段逐层降维聚集算法(S-Redu-D-A),研究了从类似关系型数据库Hive到Nosql数据库中,Hbase数据模型的形式化方法(Hsql-To-Nosql Formalized Model,Hs-Nos-FM)。提出并验证了满足HOLAP高效地形式化多维立方体(Format Multi Cube,F-M-Cube)数据存储模型,在大规模数据集多维查询上表现出良好的性能。第三,针对两种查询计划,通过实时性要求、数据规模、维度基数、存储空间、多表连接、查询频率等指标进行查询规划计算分析;提出了包含权限控制、查询监听、查询分析和查询分配的查询规划工作流程。通过对不同规模数据、不同多维查询的执行时间对比分析,有效地验证了基于HOLAP系统架构的查询规划方法,在常见OLAP多维查询中表现出良好的性能。最后,本文通过HOLAP系统架构下的查询规划方法、查询解释机制、形式化多维立方体构建方法、聚集缓存机制、支持Hive的MDX查询,并嵌入形式化方法的构建算法进行详细设计和实现。经过测试,本系统具有良好的性能,达到了预期的设计目标。
其他文献
在国家推行“一带一路”战略的背景下,我国的多式联运业务发展步伐已经加快。与此同时,国家发改委已经开始启动"十三五"发展规划,各相关政府和港口、多式联运企业正在抓住历
环境问题是关系人类生存发展的重大问题之一,尤其是近年来随着“雾霾”的肆虐,防治空气污染作为政府保障民生,打造幸福中国的重点工程吸引了越来越多的社会关注。然而,以当下
通过问卷调查、实地观察和深度访谈等方法,对深圳市中小学舞蹈教师专业发展、舞蹈课程开设与开发、舞蹈社团建设与活动等情况进行现状调研,分析了深圳中小学舞蹈教育的主要成
文章分三部分介绍贵州省瓮安县猴场话语音系统的特点,包括瓮安猴场话的声韵调、语音特点以及声韵配合关系。
财务管理制度的开展与完善是企业正常运行的必要保证,企业在发挥社会效益的同时也必须注重企业的可持续发展。企业财务管理制度不仅影响企业资源的配置,同时也对企业的未来发
多波束测深仪是广泛应用于船舶上的高精度测深设备,以其出色的工作效率和测深精度在海底地形的研究工作中发挥了巨大的作用,然而人们发现系统输出数据中的一些测深假象,这些
语文课堂教学是以师生的言语行为作为主要方式的交际活动,教学目标的实现主要以课堂问答作为媒介。在课堂问答中,教师教学语言的使用必须体现合作原则,特殊的时候可适当违反
在毒品犯罪中,侦查讯问人员要注重研究与分析嫌疑人的心理特征,常见的主要有畏罪、侥幸、戒备、贪财和恐慌心理五种,针对不同的心理特征,相应地选择和运用不同的讯问策略:一
或有负债是财政风险的一项核心内容,我国目前地方政府或有负债不断增加,对地方经济的可持续发展造成了潜在的威胁,从而制约了国民经济的健康稳定发展。因此有必要按照社会主
新课程改革背景下,深度学习和深度教学是培养学生地理核心素养的必然路径。通过文献分析,对深度学习与深度教学的内涵、实施策略及评价进行了总结研究。