基于云存储的元数据管理关键技术分析

来源 :科学与财富 | 被引量 : 0次 | 上传用户:wxwp_hawk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:大数据和云计算技术的广泛使用,对数据存储空间也提出了更加严格的要求。云存储就是借助于分布式文件系统、集群应用等功能,将不同类型的存储设备进行整合利用,从而实现数据存储和业务访问等基本功能。在云存储服务器中,元数据是文件系统中主要的访问对象,因此必须通过加强元数据管理,切实保障元数据的可用性、安全性和完整性。本文首先对元数据管理的常用技术进行了概述,随后提出了一种基于缓存技术的云存储元数据管理方案,最后就云网盘系统的功能实现展开了简要分析。
  关键词:云存储;元数据管理;缓存技术;控制系统
  引言:在分布式文件系统中,元数据管理系统发挥着不可替代的重要价值,并且元数据管理中所用技术的配套程度,也会直接对文件系统的整体性能产生影响。现阶段云存储环境下元数据的管理技术主要有哈希算法、映射法等,但是在实际应用中都存在一定的缺陷。本文提出了一种适应云存储环境的元数据缓存替代策略,并在此基础上提出了云网盘系统设计方案,对解决现阶段元数据管理中存在的一些问题有一定的借鉴意义。
  一、云储存中元数据管理的概述
  1、数据与元数据
  云存储中的文件内容主要包括两种类型,一种是数据,另一种是元数据。数据就是二进制的文件内容,而元数据则是关于描述文件属性的详细信息。从功能定位上来看,元数据还包含了数据的一些特征或属性,此外还可以根据外部使用和管理需求,完成定位、检索、选择等功能。元数据格式如表1所示。
  2、元数据管理的目标
  以往元数据管理只能在独立的云存储分布式数据管理系统中进行,为了更好的适应不同需求下的元数据存储和访问需求,需要实现跨系统的元数据管理,并且要保证系统响应的及时性和高效性,为用户提供便捷的数据管理服务。简单来说,基于云存储的元数据管理目标,就是要兼顾大容量、高扩展性和高访问效率。此外,要求元数据管理系统还能够根据需求进行动态扩展,以降低后期访问和管理的成本。
  3、元数据管理的重要性
  一方面,元数据作为云存储服务器中访问频率最高的数据,必须要保证其可靠性和准确性,这是由系统运行模式决定的。云存储中的文件被用户访问时,首先需要经过客户端登录操作,此时云存储服务器会对访问权限进行检查,只有具备读写权限才能获取读取文件中包含的元数据。另外,元数据和文件数据之前存在前后逻辑关系,只有先访问元数据,才能后访问文件数据。这样用户的访问信息就会被记录下来,避免了非法访问或越权操作。另一方面,元数据本身占据的存储资源十分微小,如果在同一时间内有大量的访问信息同时作用于小文件,可能会造成系统数据传输通道拥堵。通过技术手段加强元数据管理,可以避免此类问题的发生。
  二、引入缓存技术的元数据管理策略
  1、基于时间特性的策略
  现阶段关于时间特性的算法主要有两种:一种是MIN算法,当云存储服务器上的存储空间接近上限,而此时又有新的数据需要存储时,系统会根据已经设定的筛选条件,自动淘汰掉一部分缓存数据。这些缓存数据通常被系统认定为无价值或长期没有被访问的。但是MIN算法中对于系统设定条件的要求过于严格,否则会造成元数据的误删除。另一种是FIFO算法,同样是在存储服务器上的存储空间接近上限的情况下,按照元数据存入时间的先后顺序,先存入的元数据被替换掉。这种算法执行起来较为简单,但是管理精确性不高。
  2、基于频率特性的策略
  LFU算法的原理是检测元存储系统一段时间一来访问次数最少的数据块,然后将其淘汰掉,并引入新的数据块进行替代。LFU算法应用的基本前提是,云存储服务器上的各个存储单元或数据块,因为频率不同所以可以看做是相互独立的个体。如果某一数据块被访问的次数越多,那么他的使用频率就会相应的升高。系统可以直接记录在某一特定时间段内数据块的访问次数,这样就降低了元数据管理的难度。但是LFU算法在应用中也有一些不足,例如在运算过程中会占用较多的系统资源,访问数据不能及时清除容易造成缓存污染等。
  3、时间与频率相结合的策略
  LIRS算法是一种在LRU算法基础上进行改良的新型缓存替换算法,大量的实践已经表明LRU算法存在两项不足,一项是在扫描缓存过程中,可能造成缓存污染,另一项是命中率不是十分理想,LIRS算法的提出正是为了解决这两项不足,LIRS改进了LRU算法中的替换因素,这里用R来表示,R并不代表时间,而是代表每个缓存数据最后两次的访问之间间隔了多少個不重复的缓存数据。在算法运行中,如果现有的缓存数据需要被替换,那么该算法会根据R值作为唯一判定依据,将R值最大的缓存数据作为首选的淘汰目标。
  4、基于云存储的元数据缓存管理策略
  上述几种元数据管理方法,管理重点主要集中在如何快速查询元数据和优化设计元数据管理与存储结构。但是在元数据的实际应用中,除了要重视元数据的访问特性外,存储容量、读写次数以及管理流程等,都是影响云存储环境下元数据管理效率的关键因素。另外,现阶段云储存中对元数据管理能够构成直接影响的节点主要有三方面,分别是客户端节点、存储控制节点和数据存储节点。其中,存储控制节点能够对来自不同服务器上的元数据进行筛选处理,在元数据管理中发挥着核心作用。本文提出的一种元数据缓存管理策略,能够将元数据以缓存形式保存早云存储服务器中,这就降低了元数据丢失或损坏的记录,极大的提高了元数据管理的安全性和完整性。
  三、云网盘系统的实现
  1、系统的结构组成
  云存储服务是位于云平台的PaaS层的。PaaS层中,浅色部分的元数据存储集群、数据存储集群、账户管理服务器和认证与授权服务器是利用的现有的开源软件提供一些基本的数据存储功能。其中,元数据存储集群采用的是MongoDB非关系数据库,数据存储集群采用的是FastDFS分布式文件系统集群,账户管理服务器和认证与授权服务器顾名思义提供相应的服务,是基于OpenAM对相关功能进行的封装。   2、系统主体功能设计
  在云存储环境下,数据和元数据分别独立存放,在进行系统主体功能设计时,也必须进行相应的元数据服务设计。此外,云存储作为一个相对开放的环境,也需要兼顾安全性问题,这些在系统主体功能设计时都应当有所体现。系统主体功能包括:(1)元数据系统,主要用来存储、管理元数据;(2)存储服务器引擎,主要完成不同服务器之间的功能调度,并为元数据提供缓存区;(3)访问控制系统,对用户账户进行管理,包括账户登录、口令验证等;(4)运维系统,包括系统故障预警与处理,权限管理等。
  3、存储服务器引擎设计
  存储器服务引擎的主要功能是为整个存储服务系统中的用户提供数据接口,存储服务引擎封装了对访问控制子系统和元数据子系统的REST接口访问,称之为代理。另外,为了方便用户通过REST接口调用系统的存储服务,存储服务引擎提供了相应的客户端API,它是一个jar包,客户端程序只需要导入该jar包,就可以直接调用其中封装了对相应REST接口进行请求的函数来调用REST服务。存储服务引擎的逻辑结构如图2所示。
  访问控制代理模块和元数据缓存管理模块如图所示,它们也是存储服务引擎的一部分,服务使用者对这两类服务的调用都通过该代理进行。这两个代理是对访问控制子系统和元数据子系统的简单封装,目的是避免将这两个子系统中的相关服务器暴露出来。
  4、元数据缓存模块
  如上文所述,用户的元数据访问请求,必须先得到存储服务引擎的响应,然后才能根据用户访问的关键字,在存储服务器中查找是否有与之相匹配的元数据。如果有完美匹配的数据,则将其发送到客户端,用户可以选择浏览或下载;如果没有匹配数据,一方面是将未匹配信息反馈给用户,同时将此条信息存储到元数据数据库中,当有符合关键词的信息后,自动进行存储。这样就实现了元数据缓存模块的自动更新和补充,为用户查找信息提供了诸多方便。需要注意的是,元数据缓存模块中的数据,并不会永久保存,会定期进行覆盖和更换,对于有保存价值的数据信息应当及时转移。
  5、文件数据读写模块
  该模块主要完成三部分功能,分别是:(1)文件上传。根据单次上传文件的完整度,可以分为整体上传和分块上传两种模式,整体上传就是直接将文件以文件流的形式,打包发送到存储器中,然后在云存储服务器中记录文件上传信息。整体上传由于受到传输流量的限制,一般只针对一些容量较小的文件。此外,在整体上传中,如果出现网络中断,也会导致文件传输失败,需要重新上传。分块上传则弥补了这一缺陷,但是上传时间较长。(2)文件下载。根据用户需要,从云存储服务器中下载制定文件到客户端。相应的,文件下载中也分为整体下载和分块下载,原理同上。(3)文件删除。对于无效的或是没有保存价值的文件,需要及时删除,避免占用存储空间。
  6、服务器主动同步注册
  在云储存模式下,保证数据的同步既是难点,又是重点。为了提高不同服务器中数据同步响应的速率,可以通过在系统外部提供数据传输接口的方式来实现。这种基于外部接口的数据同步,需要服务器主动发出调控指令,因此称之为主动同步。同时,在各台服务器中设置同样的数据调控频率,每隔一定时间完成一次数据对比,以便于协调不同服务器之间的数据协同性。服务器主动同步注册的形式一般有两种:第一种是在常规环境下,先由某一台服务器发送注册主动同步服务请求,对方服务器接受请求后,对比注册信息,完成同步;第二种是出现数据异常变化的环境下,先查询用户主动同步的关键词,然后在对方服务器中搜索到匹配的关键词,然后完成元数据的替换。
  7、元数据管理系统架构
  随着云存储系统中元数据的不断增加,传统的管理方式不仅效率较低,而且不能保證元数据的安全。为了提高元数据管理效率,需要引进专门的存储服务引擎和独立的元数据管理服务器。两者之间可以进行数据的交互,在元数据存储服务引擎中,有专门的存储单元,负责接收来自元数据管理服务器中的请求。同时,管理服务器也能够动态的监控云存储系统的运行状态,并按照设定好的频率,每隔一定时间发送一次运行状态。在构建元数据管理系统架构时,需要依次完成“创建文件元数据模块”、“发布创建请求”、“读取并识别元数据模块”等一系列操作,最终在存储服务器中建立缓存文件,然后完成元数据的流程化管理。
  8、访问控制系统
  为了保证云存储环境下元数据的安全性,设置了访问控制系统,对所有访问系统的用户进行权限确认,只有符合权限的用户才能够进入系统内部。该系统主要的功能结构分别是账户管理模块、账户认证模块与登录管理模。访问控制的功能图如图3所示。
  在整个访问控制系统中,账户管理可以为用户提供多种服务,包括用户信息的录入、存储以及定期更新等。在该模块设置中,系统的安全性尤其重要,必须要保证内部存储用户信息的安全与完整。账户认证和授权模块,主要提供登录和注销服务。
  9、运维管理系统
  在整个系统运行过程中,需要运维管理系统负责做好系统运行工况的动态监测。一旦系统运行出现问题,也可以及时发出警报,运维技术人员根据系统报警确定故障发生位置,进而采取针对性的处理措施,保障元数据的完整性与安全性。在整个运维管理系统中,最核心的部分是运维管理服务器,运维技术人员可以在服务器界面上随时掌握系统的基本运行信息。服务器除了能够接受管理员客户端发送的各种控制指令外,还能够在程序控制下独立完成数据收集、指令传达和故障码存储等工作。已经出现并被解决的故障,会存储到独立的数据库中,这样今后如果出现类似故障,运维系统就可以自动解决。
  结语:在元数据管理中引入缓存技术,既是在传统元数据管理方法上的一种尝试和创新,同时也很好的符合了云存储环境下用户访问的需求,从理论上来说具有可行性。 通过后期仿真试验,也证明了该技术在实际应用中的价值。在仿真中,基于元数据缓存代替技术能够有效提高系统服务器的相应速率,提高了系统允许负载,进一步提高了云存储中元数据的管理效率。
  参考文献:
  [1]崔纪锋,张勇,李超,等.C4S2-243:面向云存储的空间索引技术研究[C]//中国云计算与saas大会.2015.
  [2]李东阳,刘鹏,田浪军.基于SSD的云存储主服务器元数据管理研究[J].计算机技术与发展,2013(10):68-71.
其他文献
摘 要:在胜利油田的中后期开发阶段,潜油电泵已经成为一种重要的采油方式,其中潜油电机的性能直接决定着潜油电泵机组工作正常的好坏。在电潜泵采油井作业时发现:提出的故障潜油电泵机组中保护器和潜油电机内部处于缺少电机油或无电机油状况,是造成潜油电泵机组出现故障的重要原因。而以往在潜油电泵电机、保护器下井前注油使用的是机械摇泵,通过人工手摇机械注油会导致转速不均匀,注油时间不稳定,容易产生气泡,直接造成潜
期刊
地理教学中的逻辑方法,是学生认识地理事物的本质特征和联系、掌握地理原理和规律的方法,也是学习地理理性知识、发展智能必须具备的方法。它是通过一系列思维活动实现的,故也称逻辑思维方法。它与直观方法一样,是地理教学中的辅助方法,常与讲解法、谈话法等相伴出现,逻辑思维方法很多,在地理教学中应用最多的是比较法。  一、比较是确定事物间逻辑思维的重要方法。  地理知识因其综合性、区域性格特点,内容丰富广泛,类
期刊
摘 要:企业需要发展,工业行业方面面临着转型,淘汰旧的工作模式发展出符合当下的新技术是趋势,现代化、电子化、信息化的局面才刚刚开始,奋斗的征程还有很远,以电子信息技术的优点来说,更全更广的应用在各个行业中,应用到各个领域是必须要做的事情。鉴于此,本文主要分析控制系统中电子信息技术的应用。  关键词:电子信息技术;控制系统;应用  目前电子信息技术在控制的应用过程中还存在一定的问题,我们还需要针对电
期刊
摘 要:对于目前很多市场来说,人才是社会发展中非常重要的因素,无论是理论方面的知识或者实践方面的经验都是企业需要的,因此,在高校教育教学过程中,就需要对人才进行进一步的培养,并且加强理论和实践的相互融合。对于校企合作的教育教学模式来说,在高校教育教学过程中是非常重要的,而且对于理论在实践过程中的融合是非常重要的,进而提升学生们的专业素养。对于新能源汽车专业来说,其自身推广力度相对较大,因此,就需要
期刊
摘 要:随着社会发展水平的不断提高,人们对生活质量的追求不再只停留在物质层面,生活品质逐渐成为人们关注的重点。近几年温室效应更加明显,空调逐渐成为人们的生活必需品,这使得暖通空调市场逐渐扩大。为顺应市场需求和技术水平的要求,BIM技术开始被应用于暖通空調设计过程中,尽管在某种程度上具有一定优势,但还存在一些问题,只有将BIM技术结合实际情况进行合理利用,最大限度的发挥其优势,才能有效提升暖通空调性
期刊
摘 要:基于"学生发展核心素养"的提出对于深化我国课程改革具有重要意义,从深度挖掘教材内容的观点入手,探讨将学科核心素养逐步渗透于课堂教学的策略,再将其融入人教版必修一素养为本的"气体摩尔体积"教学设计实例中,以实现核心素养在个体中自主成长。  关键词:核心素养;挖掘教材内容;优化教学设计;气体摩尔体积  “核心素养”指学生在学业结束后应具备的适应终身发展和社会发展需要的必备品格和关键能力[1]。
期刊
摘 要:混凝土施工技术的好坏会影响水利水电工程项目建设的质量和使用年限。所以水利水电的施工人员和管理人员要对混凝土施工技术提高关注度,使混凝土施工技术更加规范化,减少因为混凝土技术引发的质量问题。本文根据笔者的经验讨论了水利水电工程施工中混凝土施工技术的应用。  关键词:混凝土施工技术;水利水电工程;施工;应用  高层建筑和大跨度建筑的数量随着社会经济的发展逐渐增多,这就给混凝土技术带了更多发展机
期刊
摘 要:火驱区域油井尾气量大,部分井日尾气量甚至达到了5000方以上,而火驱生产井也是排气井,既采油又排尾气,这也直接导致了火驱井的泵效偏低。在泵下加气锚,成为了火驱生产井的主要解决方式。而传统气锚适于分离以甲烷为主的溶解气,针对火驱工况具有一定局限性,因此开展火驱非溶解气分气效率和分离装置结构的研究具有一定的实际意义。  关键词:火驱;溶解气;非溶解气;气锚  引言  曙光采油厂杜66-杜48块
期刊
摘 要:装表接电是电力工程中的重要环节,但是在装表接电现场工作过程中面临着各种危险因素。本文就电力行业的装表接电现场工作过程中的危险点进行探析,首先分析了装表接电现场的工作特点,然后阐述了装表接电现场工作过程中的危险点,并提出了装表接电现场工作防范安全事故的有效建议,旨在为人们提供一定的参考。  关键词:电力行业;装表接电;危险点  引言:  近年来我国的电力行业在不断发展,使得电力行业开展的服务
期刊
摘 要:高等教育成本分担是高等教育领域的一个重要研究问题,文章以高等教育成本为研究对象,通过对关于"高等教育成本分担"的分析,探析总结了高等学校在学校、个人(或者家庭)、社会、政府等各个成本分担主体之间的分担份额及其原因对策研究,归纳了相关问题研究的特点,以教育成本研究作为起点,在对国内外教育成本相关研究历史的简要回溯基础上,重点对国内外高等教育成本分担的研究成果进行综述,以期加强对高等教育成本的
期刊