一种海量结构化数据处理技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:Northbay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及及互联网的迅猛发展,信息呈现爆炸式地增长。人们需要从这些越来越多、越来越复杂的数据中找到对自己有用的信息,因而,对于海量数据的处理和分析变得越来越重要。当前,社会上有很多针对海量数据处理和分析的工具,如Hadoop、各种并性数据库和HadoopDB等。但是,Hadoop处理结构化数据比较困难,HadoopDB仅仅是一个试验性的项目,由各种各样的缺点。因此,对于海量的结构化数据来说,需要一种新的处理技术或工具。本文研究了一种基于Hadoop平台的海量结构化数据处理的技术。FlexDB系统使用SQL语言,便于学习和使用;使用ANTLR建立分析器,并对SELECT查询等操作做了一些优化,以便提高查询效率;基于MapReduce的思想,可以把所有的操作都分成子操作来完成。要利用系统处理信息,首先要把要处理数据装载如系统,此时要对元数据数据库进行操作以记录下数据的基本信息并在各节点创建子表;然后可以对数据进行处理,主要是SELECT查询操作,并把处理结果显示出来或写存到相应的数据库中,也可能查询之后删除某些记录或字表,此时进行DELETE删除操作。论文首先介绍了研究背景和意义,之后介绍了当前国内外海量结构化数据处理技术的现状;然后介绍了系统中使用的各种技术和相关思想;接着介绍了FlexDB系统的结构框架并详细描述了数据装载与语法分析器部分的实现;之后使用一组数据让FlexDB、Hive、HadoopDB分别进行处理,证明新技术的比较优势;最后对论文进行了总结。
其他文献
作者就含碳铬矿球团在竖炉内熔融还原冶炼铬铁合金的新工艺进行了试验。探讨了含碳铬矿球团的低温机械性能,测定了球团的荷重钦化温度,论述了温度、还原剂、铬矿粒度等因素对
企业资源计划(ERP)自诞生以来,已成为众多企业进行资源优化管理,以最小成本获取最大利益的首选信息系统实施项目。ERP进入中国较晚,经历了多年的沉淀和积累,在国内企业中越来
许多抗生素、液晶材料、聚合物、光电材料等都是由端炔与卤代芳烃或卤代烯烃通过Sonogashira偶联反应得到,构建C(sp2)-C(sp)键的方法一般是使用钯-铜两种催化剂共催化而实现
为了解决使用人侵权责任问题,《中华人民共和国侵权责任法》第34条和第35条分别就用人单位与工作人员之间的使用关系、个人之间的使用关系所产生的侵权责任问题进行了规定。
TD-LTE-Advanced (Time Division-Long Term Evolution-Advanced)是中国具有自主知识产权的第四代运动无线通讯技术。它吸纳了TD-SCDMA的主要技术元素,体现了我国通信产业界
营销指企业发现准消费者需求,并进行推广和销售产品行为,从而让准消费者了解产品并购买该产品。销售对企业经营发展有着重要意义,营销的好与坏关系着企业利润,企业经营中做好
目的通过测量成人肩峰的长度、宽度和厚度以及喙肩韧带在肩峰止点处的宽度和厚度,为临床应用提供形态学基础。方法选取36个新鲜成人冷冻肩关节标本,分别进行CT扫描,并将扫描
研究背景:伴随着经济社会的快速发展,肥胖已成为最常见的代谢障碍性疾病,严重危害着人类的生命健康。肥胖不仅影响形体的美观,还会造成患者心理上的自卑。流行病学和临床研究
中小企业是我国经济发展的重要组成部分。对丰富我国经济形式有着显著的作用,对促进我国经济的发展有着重要的推动作用。目前,筹资问题是困扰我国中小企业发展的主要问题,本
公司股权集中度、股权激励与公司绩效之间存在怎样的逻辑关系,一直是国内外学者研究关注的重要问题。本文将对近几年实施股权激励的公司的数据进行研究,在总结归纳前人的研究