基于图书馆数据分析的存储策略研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:gaoerwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在以数据为中心大数据时代,存储系统成为IT基础设施的核心,存储系统建设与资金投入的矛盾日显。本文以广东省科技图书馆为例,从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题,构思独特新颖,具有较高针对性和实用参考价值。
  关键词:需求分析;存储系统;存储策略;存储解决方案
  中图分类号:TP333
  在以数据为中心大数据时代,存储系统重要性逐步取代服务器,成为IT基础设施的核心。图书馆作为信息资源和服务的提供者,电子资源数据类型丰富,服务种类多样,对图书馆存储系统有更高的需求,存储系统建设与资金投入的矛盾日显。图书馆的电子资源类型不同,对存储安全性、访问效率的要求是相差很大的;不同的存储结构,不同的冗余措施,单位容量的设备价格也相差很大。探讨研究建设满足图书馆需求的高性价比的存储系统日益重要[1-2]。
  探讨图书馆储存系统建设方面的论文很多,绝大多数是基于存储技术层面论述图书馆存储系统建设[3]。本文以广东省科技图书馆为例,尝试从另一个角度,探讨图书馆存储系统建设问题,即从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题。本文构思独特新颖,具有较高针对性和实用参考价值。
  本文的存储策略是指:以图书馆业务系统数据类型为依据,高性价比为主轴,对图书馆数据进行分类,分析存储系统性能指标,从数据安全性,扩展性,可用性和数据管理方面研究探讨建设高性价比图书馆存储系统问题。
  1 图书馆数据类型与存储系统需求分析
  图书馆的数据,仅从存取角度看,可分为两大类:第一类是以文件形式存取的数据,基于文件级(file)的操作;第二类是采用关系型数据库形式存储的数据,是基于数据块级(Block)操作。而从数据存储与应用的角度,图书馆电子资源和各业务系统的数据主要有以下几类(以广东省科技图书馆为例)[4-5]:
  (1)目录类关系数据库:包括馆藏书目数据库、联合目录数据库、电子期刊导航数据库等;(2)文摘题录和电子资源索引数据库:包括CNKI学术期刊全文索引数据库、学位论文索引数据库、超星院士文库、书生之家等电子期刊与图书的索引部分;(3)电子资源全文数据库:包括CNKI学术期刊全文数据库、维普科技期刊全文数据库、学位论文全文数据库、万方数据库、超星院士文库、电子报刊、书生之家电子书等电子期刊与图书;(4)光盘数据:CD、VCD、DVD 等多媒体音视频资源;(5)自建文件型数据:包括随书光盘的压缩文件等;(6)自建关系数据库:包括高新技术数据库、西文联合目录、多媒体导航数据库等;(7)网站数据:包括图书馆网站,内部办公网,广东发明网,高新技术网等系列网站的网页数据;(8)各应用系统的数据:包括自动化系统,原文传递系统,发现系统,邮件系统,DNS系统的数据;
  上述数据,(1),(6)类资源占用的存储空间较少,增长量也不大,对存储空间要求较低,但对安全性要求很高,对效率要求也很高;(2),(5),(7)类资源占用的存储空间比较大,增长平稳,对安全性与效率有较高的要求;(3),(4)类需要海量存储空间,而且空间增长迅速,但对安全性要求不高。(8)类数据原文传递系统,发现系统等图书馆业务系统对存储容量和性能有很高的需求。
  图书馆的数据种类不同,对存储系统安全性、容量、访问效率的要求是相差很大的;而不同的存储介质,不同的存储结构,不同的冗余措施,单位容量的设备价格相差很大。针对不同数据特点,采取不同的存在策略,对降低图书馆存储建设的成本,提高可用性用着重大意义。
  2 图书馆数据类型特点与存储策略研究
  2.1 数据的安全性及策略
  2.1.1 数据分类
  从安全性的角度,笔者将图书馆数据分为3种类型:(1)敏感数据,对存储系统安全性需求高,数据丢失不可恢复,对业务影响大。比如自动化系统读者信息库;(2)普通数据,对存储系统安全性需求较高,数据丢失可回复,但工作量很大。例如自建的随书光盘,如果丢失数据,虽然可以用光盘重建,但工作量巨大;(3)非敏感数据:对存储系统安全性需求不高,数据丢失可回复,但工作量不大,但费时。如全文期刊数据,如果丢失数据,可以让数据库提供商重新拷贝数据,但由于是海量数据,需要长时间恢复。数据类型与存储系统安全性需求关系如表1所示。
  表1 数据类型与存储系统安全性需求
  敏感数据 普通数据 非敏感数据
  数据来源 自动化系统,自建数据库系统等 自建光盘库等 电子刊,电子书等
  对存储的安全需求 高 一般 低
  2.1.2 存储介质与数据安全比较
  数据最终存放在存储介质,介质的安全性是起决定作用的。目前常用的存储介质有磁盘,光盘,SSD固态盘。表2列举了常用介质的安全性、性能与价格的关系比较。
  表2 不同介质安全性、性能与价格比较比较
  介质 光盘 SATA FC SAS SSD
  性能 低 中 高 高 极高
  安全性 较低 一般 高 高 较高
  价格 低 低 高 高 昂贵
  2.1.3 RAID水平与安全性、性能和价格比较
  数据的冗余也是提供存储安全行的重要方面。阵列技术,可以提高磁盘系统性能,增加数据安全性,阵列的级别不同,冗余及安全性也不同,表3列举了常用RAID水平与安全性、性能与价格的关系。
  表3 不同RAID水平的安全性、性能、价格比较与适合存储的数据类型
  RAID级别 RAID0 RAID1 RAID5 RAID6
  允许故障 无 是 是 是
  冗余类型 无 复制 奇偶校验 双重校验
  热备份选择 无 有 有 有   单位容量价格 低 最高 较低 较高
  2.1.4 数据的安全性存储策略分析
  根据表2和表3比较结果,安全敏感数据,普通业务数据,非敏感数据,可选择的应用策略如表4。
  表4 数据的安全性与存储策略分析
  敏感数据 普通数据 非敏感数据
  存储介质 FC或SAS硬盘 SAS SATA SATA
  RAID水平 RAID5 或者RAID6
  1-2块全局热备盘 RAID5
  RAID5
  1-2块全局热备盘 RAID5
  有效容量 N-3或N-4块盘 N-2块盘 N-3或N-4块盘 N-2块盘
  存储单位价格 贵 较贵 较便宜 便宜
  2.2 存储系统扩展性及策略
  从数据容量及重要性角度,笔者将图书馆的数据分为3种类型:
  (1)核心数据,比如图书馆自动化系统读者的数据,图书馆自建的数据库等,这类数据容量不是很大一般在1-3T,年增量不到1T,但对安全有最高要求,不允许丢失失效;(2)业务数据,如书附光盘数据,多媒体数据等,数据容量较大容量在5-10T,年增量在1-2T,对安全有较高要求;(3)海量数据,例如电子刊,电子图书等,容量大,年增量也大,但对安全的需求不是很高。如表5 所示。
  表5 业务数据与容量需求分析
  核心数据 业务数据 海量数据
  数据来源 自动化系统数据,自建数据库等 检索数据库,书附光盘,多媒体等 电子刊,电子书等
  容量 小 中 大
  增量 小 一般 大
  存储的性能需求 高 一般 低
  存储的扩展性有两个层次的含义:一是存储阵列容量的扩容;二是阵列服务的扩展。
  2.2.1 容量的扩展
  不同存储介质容量价格比较及适合存储数据类型分析,如表6所示。
  表6 不同存储介质价格比较及存储数据库类型分析表
  介质 光盘 SATA FC SAS SDD
  性能 低 中 高 高 极高
  容量 较低 一般 高 高 较高
  多次读写 否 是 是 是 是
  单位容量
  价格 低 低 高 高 昂贵
  适于存储的数据类型 离线或备份的数据 海量数据 核心数据 核心数据 存储系统本身的数据
  2.2.2 阵列服务的扩展
  访问量的增长。比如中文期刊网,服务需求的增长。
  业务的扩展,图书馆新业务的扩展,比如自建特色网站,发现系统等等新建业务系统的需求。
  图书馆业务系统对存储扩展性需求分析表7。
  表7 业务系统对存储扩展性的需求分析
  访问量增长 业务扩展
  图书馆业务系统需求 中文期刊,多媒体,书附光盘,读报系统等 自建特色网站,原文传递,发现系统等
  表8 典型存储系统扩展性综合比较
  DAS NAS FC-SAN IP-SAN
  安装、维护 较复杂 简单 复杂 简单
  协议 SCSI TCP/IP Fibre Channel TCP/IP
  数据共享 困难 容易 容易 容易
  兼容性 一般 好 差 好
  可靠性 较差 较高 高 高
  可扩展性 差 好 好 好
  安全性 高 一般 高 一般
  效率 高 低 高 较高
  价格 低 较低 高 一般
  2.2.3 存储系统扩展性及其策略分析
  根据2.2.1和2.2.2比较及分析结果,图书馆存储系统在扩展性方面采取的存储策略:
  (1)容量扩展策略如表9所示;(2)服务扩展策略如表10所示。
  表9 容量扩展策略分析表
  核心数据 业务数据 海量数据
  存储介质 FC或SAS硬盘 SAS SATA SATA
  表10 服务扩展策略分析表
  访问量增长 业务扩展
  对存储扩展性需求分析 DAS,FC-SAN NAS,IP-SAN
  2.3 性能与可用性及其策略
  通过对图书馆存储数据的分析,不仅不同类型的数据被访问的频率不同,就算同一类型数据也是具有生命周期的,不同时期其重要性和被访问的频率相差很大。因此对存储系统性能的需求也就不同。例如:索引数据库比全文数据库访问频率要高;新刊的数据访问频率最高,为读者带来的使用价值也最高,随着时间的推移,访问频率降低,数据的价值也随之下降。表11是作者对图书馆热点数据及数据来源的分析归类。
  表11 数据热点及数据来源
  热点数据 非热点数据 历史数据 归档数据
  数据来源 新建数据库,主要业务系统,新的电子刊,电子书,目录及索引数据等 电子刊,电子书,自建书附光盘,多媒体库等 旧电子刊,电子书,冷门学科数据 离线归档数据
  为满足业务需要,从存储策略角度,对分级分层存储及虚拟存储作简单的描述。
  2.3.1 分级分层存储策略
  分层存储就是将数据存储在不同层级的介质中,并在不同的介质之间进行自动或者手动的数据迁移,复制等操作。[6]
  图书馆数据中非热点的数据量远多于热点数据量,如果全部用成本高、速度快的存储介质来存储所有数据,不仅费用高,也没有必要。对不同的数据类型、不同的数据周期的数据存放对应层次的存储空间,热点数据存放高性能空间;非热点数据存放普通空间,既能最大限度地满足用户需求,又可使存储成本最小化,从而获得更高的性价比。   数据的活跃度与存储性能的关系如图1所示:
  图1 数据生命周期与数据活跃度与存储系统示意图
  采用统一存储系统,利用各类磁盘不同性能的特点,构建不同性能层级的存储空间,结合算法对负荷进行分析,自动管理各层级存储空间,数据在线迁移,实现高活跃数据以及生命周期各阶段数据在存储系统中分级分层存储,在保持成本不变的前提下,达到满足业务系统对存储空间不同性能的需要。
  2.3.2 虚拟存储技术
  实际上,要实现上述存储功能,不仅复杂,而且动态变化,如果仅通过“手工”配置实现,是相当困难的。因此对统一存现系统提出了虚拟存储要求。
  所谓的虚拟存储(Storage Virtualization)是指将多个不同类型、独立存在的物理存储体,通过软、硬件技术,集成转化为一个逻辑上的虚拟的存储单元,集中管理供用户统一使用。虚拟存储的实质是对物理存储设备进行逻辑化的处理,并将统一的逻辑视图呈现给用户。因此,用户在使用时,操作的是虚拟设备,无需关心底层的物理环境。因而,可以充分利用基于异构平台的存储空间,达到最优化的使用效率。
  3 图书馆存储系统解决方案
  通过对图书馆数据类型特点及存储策略的分析,以安全、高效、易管理、高性价比为原则,提出建设图书馆统一存储的解决方案,具有下列特点:(1)支持多种不同性能的磁盘,方便容量扩展,满足不同业务的需求;(2)支持Fcsan和Ipsan网络存储,方便业务系统服务扩展;(3)支持分级分层存储与数据动态迁移;(4)支持虚拟存储概念,高效管理存储空间。
  4 结束语
  云计算,大数据,物联网,移动商务,信息安全等是目前IT热点,这些都与存储系统密切相关。本文从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题,在解决图书馆存储需求与资金投入的矛盾是一个有益的尝试,具有较高针对性和实用参考价值。
  参考文献:
  [1]窦天芳,张成昱.数字图书馆存储系统的建设方案与技术[J].现代图书情报技术,2005(01):15-18.
  [2]刘海峰,李伟,朱江岭.存储技术在数字图书馆的应用[J].河北工业科技,2003(06):61-63.
  [3]吴廷照,李兴国,李秉严.数字图书馆存储系统解决方案[J].四川图书馆学报,2004(02):26-30.
  [4]黄意安.存储系统在数字图书馆建设中的应用分析[J].福建图书馆理论与实践,2008(01):42-45.
  [5]朱培毅.大学图书馆基于SAN架构的混合存储解决方案探索[J].图书馆论坛,2004(04):99-102.
  [6]史敏鸽.,浅析数据分级存储在高校数字图书馆建设中的运用[J].现代情报,2005(07):86-88.
  作者简介:邓重斌(1963-),男,广东连州人,硕士,总工程师,高级工程师,研究方向:计算机网络与应用。
  作者单位:广东省科技图书馆,广州 510070
其他文献
摘 要 统一建模语言UML的出现使软件开发趋向标准化,该文认为UML不仅可以为软件系统建模,还可以成为标准的企业建模语言。该文从企业建模意义、传统企业建模方法、面向对象思想与企业建模相结合以及用UML进行企业建模的可行性分析等方面阐明观点。  关键词 企业模型 企业建模方法 面向对象技术 UML  文章编号1002—8331—(2002)23—0248—03 文献标识码A 中图分类
期刊
摘 要 该文分析了使用XML,结合XSL,Xp。inter,在网络上发布企业级关系型数据的通用方法。详细介绍了在以XML的形式发布关系型数据的几个重要技术问题的解决方案,并给出了一个基于VC++语言实现的范例。  关键词 XML XSI XPOINTER 关系型数据  文章编号1002—8331—(2002)23—0239—04 文献标识码A 中图分类号TP391
期刊
摘 要 该文根据在某国有大型家电企业集团实施企业信息化的经验,总结并提出了一种适合我国制造业信息化硬件平台水平的分布式事务处理的节点模型,并展示了该模型的实际应用,讨论了该模型的优点与不足之处。  关键词 事务处理 数据库复制 企业信息化  文章编号1002—8331—(2002)23—0235—04 文献标识码A 中图分类号TP391
期刊
摘 要 地理信息系统目前已广泛应用于许多领域,通过瓤S技术与网络技术的结合,可以在更大范围内提供CIS应用服务,促进信息的共享与交互。该文介绍了利用MapObjects构件及其扩展模块M叩Objects IMS来构建Web CIS系统的方案。  关键词 地理信息系统(GIS) 互联网(Internet) 构件式技术 ActiveX  文章编号1002—8331—(2002)23—024
期刊
摘 要 文章介绍了一个基于NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网络处理,由网络的输出来判断是否为词表之外的词。该文在实验中建立了一个基于传统N—Best方法的基准模型并试验了三种不同的网络拓扑结构,包括前馈后向传播网络、E
期刊
摘 要 该文结合教育理论和远程网络教育的实际,对远程网络教学的体系结构及总体进行了深入的研究和详尽的设计,依此为基础提出了远程网络教学系统的总体设计方案,为教育网络化的建设提供了良好的基础。  关键词 Intemet/Intranet 远程网络教学 ASP  文章编号1002—8331—(2002)23—0232—03 文献标识码A 中图分类号TP391;TP393
期刊
摘 要:针对蒙文的“从上到下,竖向排列”的特殊书写规则,分析当前各种应用程序中使用蒙文编辑显示的方法,将蒙文的编辑与ActiveX技术相结合,以及实现ActiveX控件的实地编辑的技术。  关键词:蒙古文;ActiveX;实地编辑  中图分类号:TP391.1  ActiveX技术是微软公司对OLE技术的扩展,是通过组件对象模型使得软件组件在网络环境中实现交互的技术集。它包括Active X服务器
期刊
张雪良,汤林平,汪贵州 / 广州粤能信息技术公司  摘 要:继电保护是电厂生产运行过程中非常关键的一环,提高电厂继电保护专业管理水平,是继电保护设备可靠运行的保证。本文介绍了电厂继电保护安全生产管理信息系统的功能、软件结构及硬件系统,该系统包括九大重要功能模块,能够对继电保护资源进行全面地调配与管理,全面提高电厂的继电保护管理水平。本文还对当前电厂继电保护安全生产管理信息系统面临的问题及相关对策进
期刊
摘 要:当前很多个人、企业的网络带宽很大,但却常常发生网络堵塞的情况。用户的网速变慢,恶意程序盗取用户隐私资料,并通过联网将用户隐私数据上传到攻击者,或是未知蠕虫入侵电脑并尝试感染邻近主机,除危害到主机安全外,还有可能导致整个网络信息的泄露。本文在现有模型基础上,针对建立个人电脑对流量监控的需求,采用在NDIS驱动层的开发包设计并实现一款能够实时查看应用程序联网情况,流量分析以及流量进行控制的软件
期刊
摘 要:随着计算机行业的不断发展,信息安全问题已经成为人们所关注的重大问题。国内外市场上存在的安全软件大都是针对外部进行违规操作的攻击行为进行防御的运行模式,而针对防内部人员泄密的安全软件却并不多。针对这一现状,本文利用关键字匹配技术和HO0k技术,设计了一种防内部人员泄密的检索软件。  关键词:安全;检索;泄密;扫描;Hook  中图分类号:TP311.52  随着计算机行业的不断发展,信息安全
期刊