基于海量数据自动计算装载、分配的方法与装置

来源 :科协论坛·下半月 | 被引量 : 0次 | 上传用户:wangluojishu0802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着移动互联网的快速发展,以及电信行业自身业务的不断增长,企业数据存量已达到PB级,海量数据模式对存储系统的性能及可靠性提出了更高层次的要求。当存储数据增加到一定规模时,会导致系统中某一个或多个存储设备性能降低、I/O响应时间较长、无法满足海量数据的存储需求。提供一种基于海量数据的数据分配方法、装置的方案,能够有效解决现有技术中无法根据数据的重要程度及当前存储设备的性能进行自动分级存储等问题,从而降低存储设备I/O响应时间,提升设备存储利用率。
  关键词:异构数据 分级存储 海量数据存储 业务存储优先级
  中图分类号:TP311.13 文献标识码:A 文章编号:1007-3973(2013)007-078-02
  1 引言
  随着移动互联网的快速发展,智能终端的普及,以及物联网、云计算等新兴产业的兴起,海量数据成为当前最显著的特征。预测数据显示,到2015年,每秒钟将有100万分钟的视频内容跨网络传输;从2010年到2015年,全球移动数据流量将增长26倍。面对海量数据来袭,目前业界仍采用根据数据业务情况事先规划存储的方式,即为分属于不同业务的数据事先分配不同的存储设备,数据生成后直接按照事先分配的存储设备进行存储。
  传统方式进行海量数据的存储时,一般需要单独部署数据主控服务器来进行(所述数据主控服务器中预先存储了事先规划的数据存储规则),当系统中的数据增加到一定规模,导致系统中某一个或多个存储设备中存储了大量的数据从而导致相应的存储设备性能降低、I/O读写时间延长,无法满足数据存储需求时,需要由系统规划人员根据当前业务数据及存储设备的实际情况以人工方式对各存储设备的参数、性能、容量等进行调整或者由系统规划人员根据自身经验以及系统当前实际情况,重新为该系统制定相应的数据存储规则。
  本文基于海量数据的数据分配方法、装置及系统,根据确定的该待存储数据的数据优先级,确定具备与该待存储数据的数据优先级相匹配的设备性能优先级的在线存储设备,这种方案将有效解决现有技术中存在无法根据数据重要性以及存储设备性能进行自动划分和存储等问题。
  2 方案设计
  本方案是基于海量数据自动计算装载和分配的方法和装置。装置包含:存储设备控制模块、设备元数据管理模块、数据计算装载服务模块、数据元数据管理模块、数据分配控制模块。其特征是:
  (1)存储设备控制模块对存储系统中的存储设备进行集群管理,计算设备性能由设备元数据管理模块管理设备元数据。
  (2)数据进入装置后,数据计算装载服务模块对数据进行处理,计算数据优先级保存在数据元数据管理模块,数据分配控制模块根据数据分配原则,优先级权重高的数据在性能高的设备上进行存储。
  (3)数据计算装载服务模块与存储设备控制模块定时对数据元数据与设备元数据重新进行加权计算,数据分配控制模块根据计算结果动态对数据重新进行分配,对于低于数据权重阈值的数据进行离线存储。
  本装置海量数据装载和分配过程,包括如下步骤:
  (1)存储设备控制模块对存储系统中的存储设备进行集群管理。存储设备包括文件服务器存储、数据库服务器存储、内存数据库存储等设备,存储设备控制模块包括存储设备群集配置数据库,当有新存储设备加入群集时,存储设备控制模块注册新存储设备配置信息并更新群集配置数据库,新存储设备会在存储设备控制模块获得并保持群集配置数据库的副本,当存储设备离线时,存储设备控制模块注销存储设备配置信息并更新配置数据库并通知所有在线存储设备,在线存储设备获取通知从存储设备控制模块获得并保持最新的群集配置数据库副本。
  (2)存储设备控制模块对接入的存储设备的性能进行加权计算,加权的指标为设备存储空间、CPU、内存大小等,加权计算后的结果保存到设备元数据管理模块。假设事先设定的存储设备的可用容量这一性能加权指标的权重系数为0.6,存储设备的处理器速度这一性能加权指标的权重系数为0.3,存储设备的内存大小这一性能加权指标的权重系数为0.1,对该在线存储设备的各性能加权指标进行加权运算,得到该在线存储设备的性能加权值Q;具体地,所得到的该在线存储设备的性能加权值Q可以表示为:Q=0.6A+0.3B+0.1C。在得到该在线存储设备的性能加权值之后,可以根据该在线存储设备的性能加权值确定该在线存储设备的设备性能优先级。例如:若所得到的该在线存储设备的性能加权值Q大于设定的第一阈值,则认为该在线存储设备的设备性能优先级为高,若所得到的该在线存储设备的性能加权值Q大于设定的第二阈值且小于设定的第一阈值,则可以认为该在线存储设备的设备性能优先级为中,若所得到的该在线存储设备的性能加权值Q小于设定的第二阈值,则可以认为该在线存储设备的设备性能优先级为低,其中,所述第一阈值大于第二阈值,且所述第一阈值以及所述第二阈值的数值可以根据实际情况进行调整。
  (3)设备元数据管理模块管理设备元数据,设备元数据存储以下信息:设备Mac地址,设备名称、加权设备性能结果。设备元数据管理模块维持和存储设备控制模块心跳通讯,根据群集配置数据库完成设备元数据注册、更新、注销管理。此元数据核心为多维稀疏Map(Map由key和value组成,Map的索引是行关键字、列关键字和时间戳),设备元数据以设备Mac地址为行关键字,以设备名称和性能结果为列名,加权计算的时间戳作为标识,设备元数据管理模块计算设备时间段内平均性能。
  (4)数据进入装置后,数据计算装载服务模块对数据进行加权计算,加权指标包括数据重要度、数据访问量、数据大小等,加权计算后由数据元数据管理模块处理。
  (5)数据元数据管理模块管理数据加权元数据,数据加权元数据存储以下信息:块信息关键字、块名称、加权计算结果。数据元数据管理模块维持和数据计算装载服务模块心跳通讯,完成数据加权元数据注册、更新、注销管理。此元数据核心为多维稀疏Map(Map由key和value组成,Map的索引是行关键字、列关键字和时间戳),数据加权元数据以数据块信息关键字为行关键字,以块名称和加权结果为列名,加权计算的时间戳作为标识。
  (6)数据分配控制模块从数据元数据管理模块和设备元数据管理模块取得数据加权元数据及设备元数据,根据数据加权计算结果进行分配,权重高的数据保存到性能高的设备之上,次之保存到性能次之的设备,依次将数据分配保存。
  (7)数据计算装载服务模块定时从数据元数据管理模块取得数据加权元数据,对数据加权元数据重新进行加权计算,计算后由数据元数据管理模块根据权重结果更新数据加权元数据Map。
  (8)存储设备控制模块定时从设备元数据管理模块取得设备元数据,对存储设备重新进行性能加权计算,计算后有设备元数据管理模块根据权重结果更新设备元数据Map。
  (9)数据分配控制模块定时从数据元数据管理模块和设备元数据管理模块取得数据元数据及设备元数据,根据数据权重和设备性能权重重新进行数据分配,权重高的数据更新到性能高的设备,对于低于预先设置的数据权重阈值的数据进行离线存储。
  3 结论
  综上所述,存储设备控制模块对存储系统中的存储设备进行集群管理,计算设备性能由设备元数据管理模块管理设备元数据,报表数据进入装置后,数据计算装载服务模块对数据进行处理,计算数据优先级保存在报表元数据管理模块,数据分配控制模块根据数据分配原则,优先级权重高的报表数据在性能高的设备上进行存储。数据计算装载服务模块与存储设备控制模块定时对报表元数据与设备元数据重新进行加权计算,数据分配控制模块根据计算结果动态对数据重新进行分配,对于低于数据权重阈值的报表数据进行离线存储。对比原有存储技术原理,可以看出本方案的优势在于能够根据存储设备实际情况进行自动计算装载和分配,充分发挥到存储设备的最佳性能。
  参考文献:
  [1] 李华植.海量数据库解决方案.北京:电子工业出版社,2010.
  [2] 吕帅,刘光明.海量信息分级存储数据迁移策略研究[J].计算机工程与科学,2009(01).
其他文献
摘 要:数据库性能优化一直是IT领域的一个大课题。结合工作经验及问题总结,列出传统数据库优化方法中的一些误区,并提出一种全新的优化方法:面向业务需求的数据库性能优化方法。包括以下几个过程:问题的引出,部析优化目的,探讨优化方法,采集实验数据,建立优化模型,建立优化过程;通过这几个过程的循序渐进,层层深入,探索了这种优化方法的来源,建立方法,应用方法等等,给数据库的优化引出一个全新的研究方向。  关
摘 要:分析网络及其军事化的机理,以期加深对军事化理论研究的深度和广度。  关键词:实体 抽象 同步  中图分类号:TP393.01 文献标识码:A 文章编号:1007-3973(2013)007-070-02  网络既是系统本身,又是系统整体性的标志,因此讨论网络的概况,必须从整体入手,分析其节点,边,网络整体特性,而网络的同步为讨论重点,因为同步从动态演化角度展示整体性。  网络化,既有实体的
简要介绍电信运营商IT支撑系统中的GIS应用情况以及目前面临的主要问题,从IT基础设施规划角度讨论建设企业GIS应用公共平台的可行性,并对GIS应用统一规划带来的建设效果进行分析,供通信行业相关技术人员在IT规划及实施过程中参考。
摘 要:中国移动在“四网协同”建设时,面临2G网资源紧张、3G网体验不佳、WLAN数据分流有限、4G网优势不大等问题。只有实现GSM网络建设精细化,充分挖掘频谱资源,实现容量和质量双提升,使TD-SCDMA和TD-LTE达到高效率网络承载,降低GSM的网络负荷,才能为中国移动网络“四网协同”战略深入开展奠定坚实的基础。  关键词:中国移动 四网协同 GSM TD-SCDMA TD-LTE  中图分
【摘 要】钻孔灌注桩作为一种基础形式以其适应性强、成本低、施工简便等特点仍将被广泛地应用于公路桥梁领域。灌注桩属于隐蔽工程,桥梁钻孔灌注桩的施工大部分是在水下进行的,其施工过程无法观察,成健后也不能进行开挖验收。施工中任何一个环节出现问题,都将直接影响到整个工程的质量和进度,甚至给投资者造成巨大的经济损失和不良的社会影响。因此,要求基础施工队伍在施工技术措施上要落实,并加强施工质量管理,密切注意抓
摘 要:随着云计算在标准、安全性上的努力、服务品质协议的提升以及鼓励厂商接受基于软件使用而非客户数量的价格度量等多方尝试,云计算逐步成为关键性业务应用的平台,人们的态度也逐渐由疑虑向更加接受肯定与使用的方向转变。在城市公路交通领域,云计算技术也必将发挥越来越重要的作用。  关键词:云计算 城市公路交通 应用  中图分类号:U495 文献标识码:A 文章编号:1007-3973(2013)007-0
【摘 要】本文以公路桥梁施工的质量控制为研究对象,主要探讨公路桥梁开工阶段、施工阶段、交竣工阶段的质量控制。  【关键词】桥粱施工;质量控制;施工质量   公路桥梁施工的质量控制,广义上是指对建设项目全过程-实施公路桥梁工程质量控制,即從工程项目立项审批、勘测设计、工程实施、交竣工验收、项目后评价全过程而建立的~f'g'机质量控制及其监督信息管理系统;而狭义上是指在工程实施过程中对公路工程实体
【摘 要】公路工程施工是一项复杂的、现代化的管理活动,具有难度大、技术要求高、地质复杂、工期紧迫的特点,涉及到经济、社会主体和多变的自然环境三个基本因素,同时会受到科技水平、资金的制约。在这种情况下,如何取得最大的经济效益是擺在施工企业面前的一大难题,如何使企业全面、健康、可持续发展,为此就必须进一步加强公路施工管理,努力提高公路施工质量。  【关键词】公路工程;施工质量;加强监管随着高速公路建设
【摘 要】随着城市交通的日益发展,对道路质量提出了更高的要求,而道路路基施工质量直接影响到路面使用品质。要做到路基的坚固而稳定,必须精心施工,才能建成高质量的路基工程。沥青混凝土路面的质量是衡量公路工程施工质量的关键环节,本文对沥青路面施工中各个环节的质量控制策略进行了分析。  【关键词】市政道路工程;路面施工;质量控制沥青砼路面;平整度;摊铺;压实试论养护高等级公路半刚性基层沥青路面的主要对策 
【摘 要】现代公路运输是我国经济发展的重要基础,随着车流量不断增加及人们出行质量水平的提高,对公路质量的要求越来越严格。针对这种情况,本文对影响公路施工的因素进行了简单阐述。  【关键词】公路施工;质量管理;质量通病;环境保护公路工程建设是一个系统,影响工程质量的因素很多。下面分别论述公路施工的质量通病、材料管理、质量管理体系以及病害治理的方法。  1.施工过程中的质量影响因素及解决方法  1.1