论文部分内容阅读
摘 要:作为一种先进计算方式的云计算,不断在信息服务与科研领域升温,并且影响了存储和运算大规模数据。本文主要分析了云存储技术,非结构化数据存储方式,面向云存储的非结构化数据存储系统架构,面向云存储的非结构化数据存储结构设计和实现。
关键词:云存储;非结构化数据;存储
中图分类号:TP333
1 云存储技术
云存储主要对云计算中存储海量数据问题积极解决,它不但能够提供专业化的存储解决方案,还可以单独发布存储业务。云存储是一种基于Web的独特模式的应用模型,其特点为成本低廉、可扩展等,属于一种服务观念,并不是真实的存储,也不是具体的设备。利用连接互联网,用户通过云存储享有共享访问存储池的功能。用户并不需要对系统内容进行了解,也不需要知道怎样进行存储,对于用户来说全部设备都是透明的,在任何时间和空间一个合法授权的用户都能够利用网络连接云存储,使用云服务。随着迅速发展的现代化网络信息技术,数据信息数量不断增长了指数级,在形成大规模数据的时代,用户产生了存储数据的更高要求,在云环境下对用户存储数据需求进行了解决:(1)高效存储与访问海量数据需求,例如新浪微博,每个月出现的用户动态高达几亿条,在关系数据库中,利用SQL查询上亿条数据记录表,效率很低,在大数据时代下,迫切需要解决高效存储与访问大量数据的问题;(2)高并发读写数据库需求,互联网的积极发展,Web重视将用户作为中心,需要按照用户个性化信息产生动态页面和信息,例如当前的微博,这一应用形成了极高的并发访问数据负载要求,通常形成了每秒上万次的读写需求;(3)高可用性和高扩展性的数据库要求,在基于Web的架构中,很难水平扩展数据库,当迅速增加用户量和访问量时,数据库服务器不能简单的利用硬件与服务节点扩展性能与均衡负载,针对一些要求提供不间断服务的网站来讲,升级形成的维护停机与迁移数据,将减少用户体验;(4)支持处理非结构数据要求,关系型数据库显著约束了处理数据和数据类型,不能达到将来用户对各种数据类型的要求。
2 非结构化数据存储方式
2.1 文件系统存储方式。利用文件系统在文件服务器中直接存储。很多不存储在应用系统的非结构化数据,例如研发的应用系统软件、信息管理部门利用的软件工具、文档开发过程等,一般都是直接将新闻中心材料存储至文件系统中。数据资源利用文化模式存储在计算机目标下,仅是利用人工简单分类文件夹,所以通常都是无序的数据存储。对数据需求访问时,通过程序直接利用存储文件路径对文件进行读取。计算机初期主要工作是计算,对存储数据几乎无要求,文件系统能够符合管理数据要求。
2.2 数据库存储方式。自从产生关系数据库之后,迅速发展功能,不断完善。当前很多应用系统中的非结构化数据,都是采取二进制格式在关系数据库字段中存储。用户向数据库系统直接发出请求操作数据,不需要应用程序。在BLOB字段中存储的特点是可以迅速访问文件,因为没有关系到其他应用系统,所以便于管理与维护;但是在BLOB字段中存储也有不足:第一是非结构化数据文件庞大,随着不断增加的数据量,会快速膨胀关系数据库的存储量,对数据库性能造成了影响,进一步降低了整个应用系统的功能;第二是各个应用系统之间彼此独立,没有共享有关资料。
2.3 数据库和文件系统综合的存储方式。该方式是把非结构化数据通过文件途径在计算机中存储,在数据库中放置存储数据文件的路径。在这一方式下非结构化数据源文件在文件系统中存放,方便浏览、传输数据。而非结构化数据文件的特点则是通过数据库中的数据表字段实施表达,便于检索、分类数据,更好的对数据文件进行存储。数据库和文件系统互相结合的典型应用模式作为内容管理系统。内容比数据更加广泛,突出了对象,可以是任意结构的数据类型,不但包括了结构化数据、非结构化信息,还关系到知识。可以认为,相较于数据、文档来说内容拥有更加全面的含义,聚合了全部结构化数据、非结构化数据信息。
3 面向云存储的非结构化数据存储系统架构
3.1 存储服务层次模型。通过上述研究奠定了非结构化数据存储研究的基础,还需要设计一套存储架构方案。本文采用分层的网络结构管理非结构化数据,从上到下划分为5个功能层,依次为应用层、会话层、数据层、路由层以及物理层。
上述5个层次中,应用层提出了非结构化数据运用接口,通过存储数据服务商研发的各种存储应用对这些接口实行展示,例如各类在线存储、网络磁盘、托管视频数据以及下载软件服务等。这时,用户所面对的云存储空间特点为虚拟的、无限扩展容量,用户对数据进行提交时不需要考虑存储空间以及数据的物理位置。
会话层具体对用户管理、分配权限空间以及安全存储策略积极负责,该层按照不同的安全级别,制定不同的安全方案保证数据的安全性。
数据层的功能是对非结构化数据和元数据统一管理。非结构化数据体积为大小不等的MB级到GB级,而元数据信息总长度不会超过1KB,二者形成了悬殊的数据量。因此存储BLOB数据与元数据对网络带宽和计算资源形成了不同需求,两类数据应当采取不同的存储对策。
路由层主要对云端节点、访问接口与后台存储设备制方案的互通性以及计算存储路径积极负责。由于云存储系统是一个拥有多个子网的存储自治体系,主要采用内部网关协议作为路由协议,在存储系统的底层应用路由协议,充分保证了非结构化数据存储系统的可扩展性与极高的存储效率。
物理层主要是为非结构化数据存储提供所需空间以及计算资源,并且对存储节点的物理通路进行维护。对于本系统来说,可以对目前通信子网设备充分应用,而不需要过多投资硬件。
3.2 非结构化数据分离式存储通路。当前,一些关系数据库都可以有效支持BLOB数据,通过RDBMS群集成为非结构化数据的物理存储底层。用户利用Web应用程序或者客户端将数据提供给存储系统,利用BLOB存取接口把数据存储到关系表中。具体表现出下列优点:1BLOB数据通过二进制流形式在关系表中直接进行存储,而不需要利用管理文件系统方式。2分离式管理两类数据,有利于优化配置存储资源。可以分配较大容量、较强计算能力的资源给BLOB数据存储区,而把较高相应效率的资源分配给Metadatr存储区。3分离式的存储通路实现了存取BLOB数据和元数据的功能分离,合理分配了网络宽带,可以对由于高并发访问对系统造成的压力有效分担。
4 面向云存储的非结构化数据存储结构设计和实现
4.1 存储结构设计。存储结构设计包括两方面内容:其一是设计管理元数据区结构;其二是设计BLOB数据存储区结构,具体内容为设计应用存储BLOB数据和元数据的二维表。其中:全部BLOB数据序号由MA统一进行管理,而其他服务器则在对详细元数据信息分散且不重复的进行存储。BLOB存储节点中拥有比较简单的数据结构,具体包括了一个image类型的资源,具体作用是对BLOB数据流进行存储。
4.2 分布式存数算法实现。存取算法非结构化数据涉及两方面内容:第一,在RDBMS下存入、删除、读取BLOB数据方式与文件系统存在区别;第二,多用户并发式访问拥有极高频度,需要着重分析均衡负载、容错性以及鲁棒性。
5 结束语
由于人工处理较大程度上限制了数据结构化,增加非结构化数据的速度远比结构化数据大。怎样将非结构化数据存储在应用系统中,面向云存储的非结构化数据存储成为系统设计人员研究的重要课题。云存储很好发展与延伸了网格、并行与分布计算等大量技术,实现了完全虚拟化的存储,提供了更加巨大的共享存储性能。
参考文献:
[1]于戈,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011(06).
[2]谢华成,刘道华.基于文件分割的二进制大对象存取算法[J].计算机应用,2011(10).
作者简介:于成龙,男,辽宁铁岭人,本科在读,研究方向:信息管理与信息系统;王梓涵,女,辽宁抚顺人,本科在读,研究方向:信息管理与信息系统。
作者单位:大连外国语大学 软件学院,辽宁大连 116044
关键词:云存储;非结构化数据;存储
中图分类号:TP333
1 云存储技术
云存储主要对云计算中存储海量数据问题积极解决,它不但能够提供专业化的存储解决方案,还可以单独发布存储业务。云存储是一种基于Web的独特模式的应用模型,其特点为成本低廉、可扩展等,属于一种服务观念,并不是真实的存储,也不是具体的设备。利用连接互联网,用户通过云存储享有共享访问存储池的功能。用户并不需要对系统内容进行了解,也不需要知道怎样进行存储,对于用户来说全部设备都是透明的,在任何时间和空间一个合法授权的用户都能够利用网络连接云存储,使用云服务。随着迅速发展的现代化网络信息技术,数据信息数量不断增长了指数级,在形成大规模数据的时代,用户产生了存储数据的更高要求,在云环境下对用户存储数据需求进行了解决:(1)高效存储与访问海量数据需求,例如新浪微博,每个月出现的用户动态高达几亿条,在关系数据库中,利用SQL查询上亿条数据记录表,效率很低,在大数据时代下,迫切需要解决高效存储与访问大量数据的问题;(2)高并发读写数据库需求,互联网的积极发展,Web重视将用户作为中心,需要按照用户个性化信息产生动态页面和信息,例如当前的微博,这一应用形成了极高的并发访问数据负载要求,通常形成了每秒上万次的读写需求;(3)高可用性和高扩展性的数据库要求,在基于Web的架构中,很难水平扩展数据库,当迅速增加用户量和访问量时,数据库服务器不能简单的利用硬件与服务节点扩展性能与均衡负载,针对一些要求提供不间断服务的网站来讲,升级形成的维护停机与迁移数据,将减少用户体验;(4)支持处理非结构数据要求,关系型数据库显著约束了处理数据和数据类型,不能达到将来用户对各种数据类型的要求。
2 非结构化数据存储方式
2.1 文件系统存储方式。利用文件系统在文件服务器中直接存储。很多不存储在应用系统的非结构化数据,例如研发的应用系统软件、信息管理部门利用的软件工具、文档开发过程等,一般都是直接将新闻中心材料存储至文件系统中。数据资源利用文化模式存储在计算机目标下,仅是利用人工简单分类文件夹,所以通常都是无序的数据存储。对数据需求访问时,通过程序直接利用存储文件路径对文件进行读取。计算机初期主要工作是计算,对存储数据几乎无要求,文件系统能够符合管理数据要求。
2.2 数据库存储方式。自从产生关系数据库之后,迅速发展功能,不断完善。当前很多应用系统中的非结构化数据,都是采取二进制格式在关系数据库字段中存储。用户向数据库系统直接发出请求操作数据,不需要应用程序。在BLOB字段中存储的特点是可以迅速访问文件,因为没有关系到其他应用系统,所以便于管理与维护;但是在BLOB字段中存储也有不足:第一是非结构化数据文件庞大,随着不断增加的数据量,会快速膨胀关系数据库的存储量,对数据库性能造成了影响,进一步降低了整个应用系统的功能;第二是各个应用系统之间彼此独立,没有共享有关资料。
2.3 数据库和文件系统综合的存储方式。该方式是把非结构化数据通过文件途径在计算机中存储,在数据库中放置存储数据文件的路径。在这一方式下非结构化数据源文件在文件系统中存放,方便浏览、传输数据。而非结构化数据文件的特点则是通过数据库中的数据表字段实施表达,便于检索、分类数据,更好的对数据文件进行存储。数据库和文件系统互相结合的典型应用模式作为内容管理系统。内容比数据更加广泛,突出了对象,可以是任意结构的数据类型,不但包括了结构化数据、非结构化信息,还关系到知识。可以认为,相较于数据、文档来说内容拥有更加全面的含义,聚合了全部结构化数据、非结构化数据信息。
3 面向云存储的非结构化数据存储系统架构
3.1 存储服务层次模型。通过上述研究奠定了非结构化数据存储研究的基础,还需要设计一套存储架构方案。本文采用分层的网络结构管理非结构化数据,从上到下划分为5个功能层,依次为应用层、会话层、数据层、路由层以及物理层。
上述5个层次中,应用层提出了非结构化数据运用接口,通过存储数据服务商研发的各种存储应用对这些接口实行展示,例如各类在线存储、网络磁盘、托管视频数据以及下载软件服务等。这时,用户所面对的云存储空间特点为虚拟的、无限扩展容量,用户对数据进行提交时不需要考虑存储空间以及数据的物理位置。
会话层具体对用户管理、分配权限空间以及安全存储策略积极负责,该层按照不同的安全级别,制定不同的安全方案保证数据的安全性。
数据层的功能是对非结构化数据和元数据统一管理。非结构化数据体积为大小不等的MB级到GB级,而元数据信息总长度不会超过1KB,二者形成了悬殊的数据量。因此存储BLOB数据与元数据对网络带宽和计算资源形成了不同需求,两类数据应当采取不同的存储对策。
路由层主要对云端节点、访问接口与后台存储设备制方案的互通性以及计算存储路径积极负责。由于云存储系统是一个拥有多个子网的存储自治体系,主要采用内部网关协议作为路由协议,在存储系统的底层应用路由协议,充分保证了非结构化数据存储系统的可扩展性与极高的存储效率。
物理层主要是为非结构化数据存储提供所需空间以及计算资源,并且对存储节点的物理通路进行维护。对于本系统来说,可以对目前通信子网设备充分应用,而不需要过多投资硬件。
3.2 非结构化数据分离式存储通路。当前,一些关系数据库都可以有效支持BLOB数据,通过RDBMS群集成为非结构化数据的物理存储底层。用户利用Web应用程序或者客户端将数据提供给存储系统,利用BLOB存取接口把数据存储到关系表中。具体表现出下列优点:1BLOB数据通过二进制流形式在关系表中直接进行存储,而不需要利用管理文件系统方式。2分离式管理两类数据,有利于优化配置存储资源。可以分配较大容量、较强计算能力的资源给BLOB数据存储区,而把较高相应效率的资源分配给Metadatr存储区。3分离式的存储通路实现了存取BLOB数据和元数据的功能分离,合理分配了网络宽带,可以对由于高并发访问对系统造成的压力有效分担。
4 面向云存储的非结构化数据存储结构设计和实现
4.1 存储结构设计。存储结构设计包括两方面内容:其一是设计管理元数据区结构;其二是设计BLOB数据存储区结构,具体内容为设计应用存储BLOB数据和元数据的二维表。其中:全部BLOB数据序号由MA统一进行管理,而其他服务器则在对详细元数据信息分散且不重复的进行存储。BLOB存储节点中拥有比较简单的数据结构,具体包括了一个image类型的资源,具体作用是对BLOB数据流进行存储。
4.2 分布式存数算法实现。存取算法非结构化数据涉及两方面内容:第一,在RDBMS下存入、删除、读取BLOB数据方式与文件系统存在区别;第二,多用户并发式访问拥有极高频度,需要着重分析均衡负载、容错性以及鲁棒性。
5 结束语
由于人工处理较大程度上限制了数据结构化,增加非结构化数据的速度远比结构化数据大。怎样将非结构化数据存储在应用系统中,面向云存储的非结构化数据存储成为系统设计人员研究的重要课题。云存储很好发展与延伸了网格、并行与分布计算等大量技术,实现了完全虚拟化的存储,提供了更加巨大的共享存储性能。
参考文献:
[1]于戈,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011(06).
[2]谢华成,刘道华.基于文件分割的二进制大对象存取算法[J].计算机应用,2011(10).
作者简介:于成龙,男,辽宁铁岭人,本科在读,研究方向:信息管理与信息系统;王梓涵,女,辽宁抚顺人,本科在读,研究方向:信息管理与信息系统。
作者单位:大连外国语大学 软件学院,辽宁大连 116044