数字图书馆大数据分布式存储架构模式与策略研究

来源 :新世纪图书馆 | 被引量 : 0次 | 上传用户:tangq_000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 数字图书馆传统的关系数据库数据存储方式已不能满足大数据存储与处理需求,为解决传统关系型数据库在海量数据存储和访问效率中的瓶颈问题,论文提出了一种数字图书馆安全、有效的大数据公布式存储架构。该存储架构具有良好的可扩展性、容错性和存储性能,尤其针对海量的非结构化、半结构化数据,其性能优势更加明显。
  关键词 数字图书馆 大数据 海量数据存储 分布式存储架构 非结构化数据 半结构化数据
  分类号 G250.76
  Study on the Big Data Distributed Storage Architecture Model and Policies of
  the Digital Library
  Ma Xiaoting
  Abstract Storing and processing big data by using ordinary relational database comes across some problems in the digital library. To solve the bottleneck problems of the traditional relationship database in big data storage and access efficiency, this paper presents a secure and efficient big data distributed storage architecture for the digital library, which has better scalability, fault tolerance and enhanced storage performance. Especially for the mass unstructured and semi-structured data, the performance advantage is more obvious.
  Keywords Digital library. Big data. Mass data storage. Distributed storage architecture. Unstructured data. Semi-structured data.
  随着信息技术的发展与读者阅读需求转变,云计算、大数据、物联网和传感器网络等技术,已成为数字图书馆构建与用户服务保障的关键技术。新技术的应用与服务模式的变革,大幅提高了图书馆服务系统的结构科学性、保障力和用户满意度。但是,图书馆在用户服务与系统管理、读者阅读活动保障、自动传感器数据采集和移动阅读终端阅读等过程中,产生了海量和级数递增的大数据资源,图书馆数据环境呈现数据体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)的4V大数据特征。此外,非结构化数据占据图书馆总量的85%以上,并且读者对大数据资源的价值密度和可用性要求较高。因此,加强大数据存储系统架构的科学性、安全性、可用性和可扩展性,确保大数据资源可以安全、高效、灵活和经济地被存储、访问、查询和分析,是关系图书馆数据存储与管理效率,保证大数据资源挖掘和数据价值发现有效的关键[1]。
  1 图书馆大数据存储面临的问题与挑战
  1.1 图书馆大数据资源具有海量、多源的特点
  图书馆大数据资源通常由读者个体特征数据、社会关系数据、系统运营与管理数据、视频监控数据、物联网传感器数据、阅读终端日志、读者阅读行为数据(主要由用户博客、微博、论坛和读者反馈信息)等组成,具有数据海量、多源、非结构化和数据总量级数增长的特点。随着用户阅读模式和需求的转变,传统的存储体系已不能满足海量激增的大数据资源存储需求,要求大数据资源库具备PB级的数据存储规模,并可根据未来服务需求进行存储性能升级和扩展。此外,要求大数据存储平台应完成对结构化数据、非结构化数据和对象数据的统一存储与管理,并保证存储系统具有高效、简单、经济和高资源整合的优点。存储系统应支持核心大数据的安全、即时备份,且备份空间应占据总系统总存储空间的30%以上[2]。
  1.2 存储架构应实现从传统IT环境向大数据环境的平衡过渡
  首先,大数据时代,图书馆传统IT环境下的集中式存储架构,已不能满足用户对大数据存储服务海量、高效的需求,管理员难以通过对存储设备容量、性能的扩展,满足图书馆大数据服务对存储系统的功能需求。其次,传统IT环境下,图书馆通常会通过增加存储系统模块的方式来扩展数据存储能力,导致存储系统结构复杂、管理难度大、存储负载不均衡和易产生数据孤岛。因此,存储架构必须实现由传统IT环境下的集中式存储向大数据环境下的分布式存储架构转变。第三,随着读者大数据服务需求的发展,图书馆应将存储系统转变为以读者大数据服务保障能力建设为中心,提高大数据存储、管理、部署和迁移的安全性、效率、可用性与可控性。第四,大数据存储架构必须增强软、硬件平台的开放性,消除传统存储平台不同系统与功能模块之间的层次化、封闭性和隔离性,实现大数据资源的最优化存储与部署[3]。
  1.3 大数据存储的可用性与成本控制问题
  大数据存储的可用性与成本控制问题,关系图书馆大数据资源挖掘、价值发现和分析决策的有效性。首先,大数据存储系统应具备多核并行处理和快速闪存的功能,可满足大数据应用对存储系统IOPs(每秒进行读写操作次数)的需求。其次,大数据存储平台应具备较高的存储效率和资源利用率,可通过监控系统对存储工作负载、系统存储效率、动态资源配置与分配、存储资源的优化水平进行实时监控。第三,大数据存储平台应具备较强的兼容性和可扩展性,可满足传统存储架构向大数据存储演进的系统硬件功能需求。第四,大数据存储管理算法应适应新的存储系统架构与存储介质运营需求,坚持以读者需求和大数据服务驱动原则,大幅降低大数据存储的能量损耗和成本投入。   1.4 大数据存储系统应构建新型的指标参数体系
  根据图书馆大数据存储系统的结构科学性、系统功能性、存储可用性和可控性需求,存储平台系统指标体系应重点关注系统的结构复杂性、可扩展性、运行效率、灵活性、数据库弱一致性和建设经济性等。涉及大数据存储系统功能性和可控性的指标体系,主要应包括数据的安全性、长期可存储性、数据可访问性、数据定位与查询的效率、存储系统的数据吞吐量与延迟、大数据存储节点的部署科学性等参数指标。此外,还应根据指标参数对图书馆大数据存储系统的结构科学性与功能影响力,以及读者大数据服务的内容与模式转变程度,及时对指标的内容、参数和影响因子进行动态调整[4]。
  1.5 云计算技术在大数据存储服务中具有局限性
  对于云存储图书馆可通过购买云服务商公共云存储服务、自建私有云平台、构建混合云存储平台(公有云与私有云相结合)三种方式,实现大数据资源的存储、管理和应用。
  公共云存储服务由图书馆交付云服务商来保障完成,具有服务部署快捷、存储成本低廉、按需分配资源和服务连续性的优点。但也存在着图书馆将所有大数据资源传输至公有云端,图书馆和其他用户共享云服务商的存储空间和管理服务,具有安全性低、数据可控性差和QOS(用户服务质量)无保证的缺点。图书馆自建私有云存储平台的方式,虽然具备较高的安全性、存储效率和数据可控性,但也存在着私有云平台的建设、运营成本高昂,对用户技术水平和管理员素质要求高的问题。混合云虽然有效解决了公共云和私有云在大数据存储中存在的问题,但也存在着跨公共云和私有云分配应用复杂,大数据资源存储安全需求评估和迁移管理难度大的问题[5]。
  2 图书馆大数据分布式存储架构模式与策略设计
  2.1 图书馆大数据分布式存储架构设计
  图书馆大数据环境由于具有数据海量、级数递增、数据结构多样和价值密度低,存储平台用户服务过程呈现数据一次写入和多次读出的特点,因而存储平台应具备系统存储容量可依据大数据服务需求横向扩展,可支持不同数据接口的数据采集设备和阅读终端、多种数据访问协议、全局命名空间和支持面向对象的数据管理。此外,图书馆在大数据存储平台部署过程中,应具备系统快速部署、高速存储与读取、大宽带网络连接、PB级海量存储、多级数据冗余备份、智能的数据检索和查询能力。同时,存储系统应具备较高安全性和7×24小时运行不中断的能力,并支持系统的在线容量扩展和数据迁移。
  结合图书馆大数据资源存储和读者服务需求,本文设计的图书馆大数据存储平台系统结构如图1所示。
  图1 图书馆大数据分布式存储平台系统结构图
  大数据存储系统由现有数据存储平台、分布式数据存储层、分布式数据处理层和大数据服务接口层4部分组成。现有数据存储平台主要完成所采集数据的初选和过滤,通过减少原始大数据资源的数据总量和增加其价值密度,降低大数据的存储负载和缩短大数据应用时间。分布式数据存储层主要由闪存和直连存储(DAS)系统组成。闪存作为DAS系统的二级缓存,具有平均无故障运营时间长、安全性高、数据读写速度快、能耗低和无噪音的特点。DAS基于闪存的二级存储服务支持,可安全、高效地通过存储系统感知器件端、中间层和应用层的服务,安全、高效、均衡、经济地实现大数据的分布式协同存储。分布式数据处理层主要由分布式并行计算框架和大数据管理、挖掘、处理、分析系统组成,基于分布式数据存储层支持而完成大数据的价值提取和知识发现。大数据服务接口层是图书馆大数据服务的数据接口,可为不同的大数据应用系统提供安全、高效、经济、可靠的数据传输服务[6]。
  2.2 图书馆大数据分布式存储平台构建与管理策略
  2.2.1 存储平台构建应以大数据应用保障为核心
  图书馆大数据应用呈现“4V”的特性。因此,在大数据存储平台构建中,应以大数据应用保障能力建设和发挥大数据“4V”价值为核心,构建安全、高效、经济和低碳的图书馆大数据资源存储平台。
  首先,管理员应仔细分析图书馆读者大数据服务的内容、模式和方法,将构建符合用户大数据服务需求的存储与管理架构放在首要位置,再依据大数据服务对存储平台的安全性、功能性、容量、I/O吞吐能力和硬件设施投资收益等要求,保障存储平台硬件设施在设备参数、接口协议标准和管理方式上满足大数据服务的需求。其次,大数据存储平台构建应注重系统的可扩展性建设,应采用Scale-Out(横向扩展)的系统架构,实现多存储节点的全冗余部署,并依据图书馆大数据业务的需求变化和数据存储量增长实际,对存储空间、带宽和处理能力进行实时的动态扩展。第三,大数据存储平台构建应以大数据存储服务生命周期规律为依据,重点关注系统的海量并行存储能力、全局命名空间、接口标准、读写性能、可管理性、系统架构开放性、多级数据冗余和多级存储备份等,实现大数据资源存储、复制、重构、迁移、分析和归档一体化的全生命周期管理[7]。
  2.2.2 存储系统构建应以读者服务需求为依据
  图书馆大数据除呈现海量、级数增长、非结构化和价值密度低的特征外,还具有数据一致性强弱不同、访问冷热度不均匀、数据读写操作负载波峰与波谷差异大的特点。因此,读者大数据服务要求存储系统具有高效、安全、低延迟、高并发、快流量和可扩展的特点。
  大数据时代,图书馆服务数据呈现多媒体表现、更新频繁、读写速度高和页面数据量庞大的特点。因此,管理员应采用可预测网页变化的增量式更新模型,通过将磁盘的随机写入转化为批量的顺序写入,来大幅缩短网页数据的更新周期和提高用户信息搜索的时效性。其次,应根据大数据存储系统的结构、热点数据特征和用户数据读写模式,对大数据存储访问、数据索引、热点数据缓存、I/O缓存等方面进行全局优化,并通过提高数据的读取速率和系统吞吐量来降低读者在线访问延迟。第三,对于关系读者服务质量、图书馆管理与运营效率的重要数据,应采取子数据中心备份和多副本存储的模式,提高数据的安全性和可用性。第四,在图书馆大数据存储平台构建中,应将大数据存储系统、存储分析系统、大数据挖掘与过滤系统、计算系统整合到一个大的系统平台之上,实现数据采集、数据过滤和挖掘、数据存储、数据分析与归档一体化,提高大数据存储的效率、安全性、可控性和可用性。   2.2.3 大数据存储平台应具备智慧管理功能
  图书馆大数据存储系统应具备较强的智慧管理功能,可高效、自动地实现大数据融合存储、查询、分析和归档的全生命周期管理。同时,应支持对多种设备接口、通信协议和数据类型的结构化与非结构化数据,进行统一存储、归档与分析,避免数据孤岛现象发生。其次,管理系统应结构简单和易于控制,可对存储系统硬件设备、软件系统和存储区域网络进行统一的管理。通过对所采集的存储系统运营状态反馈数据进行性能统计和智能分析,实现系统的自动化精简配置和存储空间的动态分配。第三,图书馆应增强基于大数据存储管理算法的科学性,实现大数据资源存储的智能、虚拟化管理,解决大数据环境下图书馆大数据存储系统所存在的存储介质异构、数据分片和存储资源分配难度大的问题。第四,大数据存储平台建设和系统运营过程应加强能耗管理。图书馆在存储系统构建中应尽量使用闪存、PCM等低能耗的新型存储介质。同时,还应采用能耗查询优化、数据存储节点负载均衡、能耗均衡的集群存储分配、面向集群的高能效缓冲区置换算法等,实现大数据存储平台的低碳运营和绿色存储[8]。
  2.2.4 存储平台应安全、可控和易于动态扩展
  在大数据存储系统基础设施建设中,图书馆应采用分布式存储系统结构来保证系统架构的可扩展性。通过对存储节点的平均负载配置实现节点间的存储负荷均衡,保证系统整体具有较高的安全性、存储效率、可控性和可用性。其次,在大数据存储平台建设中,应利用图书馆原有存储系统平台资源,对所采集的大数据资源进行数据分析、数据过滤和降噪处理,在降低大数据平台建设成本前提下增强大数据资源的价值密度,减轻大数据存储平台的计算、存储和网络传输负荷。第三,系统管理员应仔细分析图书馆的大数据存储业务,并购买或者开发相应的存储系统监控、决策软件,实现对存储磁盘I/O、磁盘总容量、磁盘占用率、CPU使用量、内存占用和存储系统传输网络效率等,进行全面、实时的运营状态监控和性能分析,并依据监控结果对存储系统的参数与资源进行配置和动态分配。
  2.2.5 大数据存储系统构建应坚持公有云与私有云相结合的原则
  利用云存储技术,图书馆可以保障读者在任何时间、任何地点,通过任何可连网的装置连接到云上,方便地存取数据和进行云阅读活动。但是,不科学的云基础设施架构和云应用策略,会导致云系统的构建与云服务成本上升,以及云存储数据安全性和个人隐私受到侵犯,严重影响了图书馆大数据应用与用户服务决策的安全、有效性。图书馆大数据存储具有数据安全级别、读写频率、结构特征和价值密度不统一的特点。因此,应根据图书馆大数据存储和大数据阅读服务需求,构建安全、高效的云存储系统和管理策略。
  结合图书馆大数据存储环境特点和服务需求,应采用混和云的方式对图书馆大数据资源进行存储和管理。读者对图书馆大数据服务具有安全、高效、经济、便捷的需求。因此,在对海量、多类型、低安全需求的服务数据进行数据模式统一转化后,应存储于公共云平台上,并与云服务商签署相应的云服务租赁协议,保证图书馆租赁的公共云资源和存储空间,可随大数据服务需求和数据量变化动态弹性调整。此外,云服务商还应依据读者所处地理位置分布实际,在世界不同地域构建若干个服务数据备份存储空间,保证读者可就近、实时、高效、经济和便捷地阅读访问。而对于高安全级别的读者个体特征数据、社会关系数据、阅读行为数据和图书馆系统运营监控数据等,应存放在图书馆的私有云上,并制定安全、高效的数据管理与保密措施,实现对保密数据的统一管理、扩展、升级和集中备份与容灾[9]。
  3 结语
  随着读者大数据服务的深入与发展,大数据环境的数据海量、级数递增、类型复杂和低价值密度的矛盾将更加突出,大数据存储与管理的安全性、效率、经济性和实时性,会直接影响图书馆读者大数据决策与服务的科学性和可用性。因此,在大数据存储平台建设中,图书馆必须以读者大数据服务和大数据存储需求为依据,坚持大数据存储技术与读者需求相结合的原则,依靠云计算和大数据技术构建基于分布式的大数据存储系统,才能保证图书馆大数据存储与应用安全、高效、经济和个性化,才能为读者提供基于用户需求感知和客户关系管理的大数据智慧服务。
  参考文献:
  [ 1 ] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-149.
  [ 2 ] 史英杰,孟小峰.云数据管理系统中查询技术研究综述[J].计算机学报,2013(2):209-225.
  [ 3 ] 金培权,郝行军,岳丽华.面向新型存储的大数据存储架构与核心算法综述[J].计算机工程与科学,2013(10):12-24.
  [ 4 ] 黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014(1):199-205.
  [ 5 ] 张天宇,贺金鑫,王阳,等.基于NoSQL数据库的地学大数据高效存储方法[J].吉林大学学报,2013(6):604-608.
  [ 6 ] 覃雄派,王会举.大数据分析:RDBMS与Map Reduce的竞争与共生[J].软件学报,2012(1):32-45.
  [ 7 ] Wilkipedia. Big data[EB/OL].[2014-03-15].http://en.
  wikipedia.org/wiki/Big_data.
  [ 8 ] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.
  [ 9 ] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1126-1136.
  马晓亭 兰州商学院信息工程学院副教授。甘肃兰州,730020。
  (收稿日期:2014-08-29 编校:刘 明)
其他文献
2015年6月24-28日,中国图书馆学会第九届"全民阅读论坛"暨2015年阅读推广峰会在江苏镇江成功举办。本次会议以"促进全民阅读,构建书香镇江"为主题,研讨阅读推广新对策,巩固全民阅
“三个代表”重要思想,是在科学判断党的历史方位的基础上提出来的,党的十六大把它确定为党必须长期坚持的指导思想。本文阐述了“三个代表”重要思想的历史地位和指导作用,论证
【正】 据世界知名调查公司盖洛普日前公布的一项最新调查称,可口可乐再次被评为中国最知名的国际品牌。60多名公司调查员走访了中国各地,拜会了数干名消费者,其中有82%的人
高校图书馆在学习型社会的建设中,发挥自己的作用,成功的经验是开展阅读推广服务,开展阅读推广服务需要遵循五个基本原则:人的全面发展原则、学校主导原则、图书馆自觉积极性原则
防治燃煤锅炉烟气中的SO_2,是中国环保工作的一项迫切任务.在多种烟气脱硫过程中,炉内喷钙工艺由于投资少、成本低等优点,受到了中国各界的广泛注意,但其脱硫效率较低,吸着剂
以粟米为原料,以一定比例的红曲、糖化酶、酒药和活性干酵母为糖化发酵剂,在喂饭时加入活性干酵母,酿制成了具有典型红曲风味的粟米黄酒。试验结果发酵,其发酵力强,能使糖化、发酵
【正】 “诸城外贸”,是山东诸城市对外贸易集团公司的简称。它的总经理叫王金友。最近记者走访了方圆八里的诸城“外贸城”,禁不住为它的规模瞠目:一个小小县级市的外贸
目前国内对柬埔寨国家图书馆(NLC)的概况研究较少,在中国与东盟区域的合作交流越来越密切的情况下,柬埔寨作为东盟国家之一,应该深入了解。论文就NLC的历史、职能、相关法律、组织机构、发展战略等方面进行了详尽的论述,并分析了今后可能的合作方向,以期向业界介绍NLC的相关信息,为今后更深远的合作抛砖引玉。
本文对情报语言学的外围环境要素,包括文献信息资源、标引、检索系统、情报需求等要素,进行了趋势总结,提出要在情报语言学中增加“用户使用经验信息”的一种新微观结构,与现有的
中华文明是世界上延续几千年而不曾中断的文明之一,一个重要原因就是典籍的世代相传。中国国家图书馆作为中华优秀典籍的最大收藏机构,在传承和弘扬中华优秀传统文化方面承担重