论文部分内容阅读
摘 要:通过分析IaaS虚拟化平台的IO传输缺陷,结合中药图谱研究中大量以文件形式存在的图谱数据传输需求,研究中药图谱文件系统向虚拟化平台迁移中的局限,并对比现有解决方案,提出通过业务分层的方法将文件IO负载从应用系统中剥离的文件PaaS模型,该模型将文件式IO密集型应用分解为:UI服务层、业务逻辑层、数据传输层和数据存储层,UI服务和业务逻辑可方便的部署于IaaS虚拟化平台中,数据传输层和数据存储层则通过PaaS文件服务平台为第三方应用提供文件管理、存储传输等服务实现,此外,通过内部随机加密令牌的方式,实现第三方安全存取访问。通过该模型,解决云计算环境下中药图谱数据挖掘过程中难以解决大数据传输效率的问题,为图谱分析系统向云计算环境改造提供高效、安全的解决方案。
关键词:云计算;虚拟化;大数据;文件;服务
中图分类号:TP311.52
随着云计算的普及,传统的医疗信息系统建设模式正慢慢向医疗信息云服务建设模式转变,医疗信息系统虚拟化云服务带来了高效率、低能耗、动态扩展与随需应变等各种好处。然而,虚拟化云服务的IO瓶颈难以解决医学图像系统对于大数据量文件传输的效率及安全性需求。各类研究通过IO虚拟化、网络存储、分布式虚拟化、云存储等方式尝试解决,但都难以同时满足大数据流量和访问安全控制的需要。本文通过业务分层的方法,将云计算环境下,中药图谱分析系统中计算密集型业务与文件IO密集型业务分离,并通过随机加密令牌的方式实现安全访问控制,从而解决医疗信息系统向云计算虚拟化环境中迁移时面临的大数据文件传输性能瓶颈问题。
1 云计算时代的医疗信息化
普遍认为,医院信息化发展过程经历三个阶段:第一阶段是医院管理信息化阶段(HIS);第二阶段是临床管理信息化阶段(CIS);第三阶段是区域医疗卫生服务阶段(GMIS),实现预防保健、医疗服务和卫生管理一体化。
随着医疗体制改革的深入,大型医疗机构在完善自身内部信息系统建设的同时,开始探索区域医疗信息化建设,实现区域内医疗机构之间的资源整合和共享[1-2]。区域医疗卫生服务建设需要面对数据共享、人力资源短缺、资金投入巨大以及系统扩展迅速的困难,而云计算恰恰具备数据共享、提高管理效率、降低建设成本的优势,而且云计算面相服务的特性也与区域医疗信息化强调服务的特点不谋而合,因此,医疗信息化建设向区域医疗信息化发展的过程,就必然包含传统医疗信息系统向医疗云服务转变得过程。
2 医疗大数据,云计算虚拟化的瓶颈
大数据时代已经来临,而医疗信息化在大数据时代的最前端。一个图谱文件大约有4万多条数据,一个基因组序列文件大小约为750MB,标准的病理图的数据量则要接近5GB,英特尔全球医疗解决方案架构师预测到2020年医疗数据将增至35ZB,相当于2009年数据量的44倍。然而,研究表明,对于将系统架设在基于IaaS的云服务平台上时,通常会遇到IaaS虚拟设备内部总控调度负载过高的问题,导致其对外输出文件的能力大幅度下降[3];同样,对于IaaS虚拟机平台来说,过多的IO负载会导致其内部虚拟机管理器的调度压力增大,进而影响整个虚拟机平台的运行性能[4]。由于医学数据主要以文件的形式存在,因此,云计算虚拟化环境下文件传输的IO瓶颈问题是制约医疗信息系统向医疗云服务发展的关键问题。
3 提高虚拟化IO性能的研究
目前,研究提高虚拟化云平台中IO性能的方法有云存储、IO虚拟化,云盘、分布式虚拟化等。其中,云存储主要用于提高外挂存储区的IO吞吐量,并不考虑加入业务逻辑以后,整体云服务的IO吞吐量[5-6];IO虚拟化则主要研究实现虚拟机调用物理机IO的机制,不涉及大数据并发的负载均衡处理[7-8];云盘总体而言和其他普通网盘没有根本性的区别,就是其主要业务功能是针对个人用户进行存储和分享的,而不是针对第三方应用进行开发,但是其外链功能和权限功能具有很重要的参考意义[9];分布式系统,能够很好的提高整体系统的负载,但是因其架设在云端上的系统的对外输出仍然由其本身承担,在大量的IO负载下,系统其他对外业务的能力会被极大地压缩[10-11]。
4 PaaS文件服务平台模型
图1 基于PaaS文件服务平台框架
基于PaaS的文件服务模式,与传统的文件传输模式最大的区别在于将文件的存取业务流与实际文件存取的数据流分开,将整体应用业务分为业务层、控制层和数据层三个层次,业务层和控制层可以无障碍地部署在云计算虚拟化空间,数据层则部署在外部物理环境,用户在访问第三方应用的过程中需要获取实体文件时,实际上从第三方应用服务器获得的是文件的访问路径与访问令牌,而实际进行文件交付的是存储服务器组。其中,存储中心和存储服务器组的具体功能如下:存储中心的功能设计:外部应用对文件上传下载请求的权限处理。保存文件实体的信息,文件实体所在的物理位置;为上传请求,下载请求进行权限过滤;为上传请求,下载请求分配存储服务器地址;为外部应用提供内部存储剩余容量、带宽资源等信息;对内部储存服务器内的文件进行调度;对上传的项目、工程、文件夹内的文件进行调度。存储服务器的功能设计:对用户上传、下载请求进行权限过滤;对下载用户返回文件;接受用户上传的文件并保存;向存储中心提供文件信息;接收存储中心发送的文件调度。
5 关键问题解决方案
5.1文件上传流程设计。在文件上传的流程中,存储中心主要提供用户权限校验、分配响应上传请求的存储服务器和拉取上传权限的作用。通过用户权限校验可以在用户提交上传文件流之前,对其上传请求进行拦截。通过上传请求的响应分配,可以综合考量各个存储服务器的当前带宽、流量和存储空间的诸多因素并决定响应此次上传请求的存储服务器。存储中心决定此次响应上传的存储服务器并到此服务器拉取上传权限。用户凭权限到存储服务器上传文件后,存储服务器会将上传结果返回给存储中心进行文件信息的存储和分析。其主要步骤如下:(1)外部应用提出上传文件的请求。(2)储存中心响应请求:①验证外部应用对文件目录的访问权限。②验证外部应用剩余空间、文件大小、工程大小等条件制。③轮询存储服务器,找出最适合响应上传的服务器。(3)到存储服务器拉取上传权限。(4)文件上传权限返回给外部应用。(5)外部应用凭文件上传凭证上传文件到存储服务器。(6)存储服务器返回上传结果到存储中心。 5.2文件下载流程设计。在文件下载的流程中,存储中心主要提供用户权限校验、分配响应下载请求的存储服务器和拉取下载权限的作用。通过用户权限校验可以在用户获得下载文件流之前,对其下载请求进行拦截。通过下载请求的响应分配,可以综合考量各个存储服务器的当前带宽、流量和存储空间的诸多因素并决定响应此次下载请求的存储服务器。存储中心决定此次响应下载的存储服务器并到此服务器拉取下载权限。用户凭权限到存储服务器下载文件后,存储服务器会将下载结果返回给存储中心进行文件信息的存储,分析。其主要步骤如下:(1)外部应用提出上传下载的请求。(2)储存中心响应下载请求。(3)验证外部应用对文件目录的访问权限。(4)找出该文件物理保存的所有存储服务器。(5)综合存储服务器资源,找出最适合响应下载的服务器。(6)到存储服务器拉取下载权限。(7)文件下载权限返回给外部应用。(8)外部应用凭文件下载权限到存储服务器下载文件实体。(9)存储服务器返回下载结果到存储中心。
5.3内部文件调度流程。文件调度可以均衡各个服务器的负载,达到最大化利用存储服务器硬盘、网络、处理器等资源的目的。例如,当某一个文件处于被多个进行下载访问的状态下,通过拷贝调度,将此文件拷贝到2个甚至多个存储服务器中,形成多条对外输出此文件的通道,避免了集中访问同一个存储服务器时遇到的带宽和处理器拥挤。当一个文件通过拷贝调度,并对外输出完毕后,通过文件删除调度可以将重复的文件删除以达到节省存储空间的目的。其主要步骤如下:(1)存储中心对文件访问日志进行分析,确定调度类型。(2)存储中心向相关的储存服务器下发调度命令。(3)存储服务器根据相关命令对文件进行处理:①文件拷贝:将一个文件实体拷贝到另一个存储服务器分流。②文件删除:删除本地一个文件实体。③文件剪切:将一个文件实体从本地剪切到另一个存储服器。(4)存储服务器返回调度处理结果。
6 结束语
该模型不同于其他网络存储系统,其最大意义是使用分层的方法实现了业务流与数据流的分离,免去了数据流从存储服务器传递到云计算虚拟机,再由云端传送至客户端的过程,从而避免云计算环境下虚拟机IO处理性能低下的问题,为实现中药图谱文件在云计算环境下虚拟化改造提供支持,而且本文所提平台框架应用简单,便于第三方进行开发,能够减少第三方应用的业务规模和硬件负担,对于开展云计算区域医疗改革提供可行思路。
参考文献:
[1]石晓敬.基于云计算的区域医疗信息化建设[J].中华医学图书情报杂志,2013(09):20-23.
[2]陈云忠,曹定舟,许源.浅析基于云计算的区域卫生信息系统的构建[J].医院数字化,2011(09):57-60.
[3]宋振华,杨亚军.Xen虚拟机间的磁盘I/O性能隔离[J].小型微型计算机系统,2011(32):1674-1678.
[4]林昊.分布式Java应用(基础与实践)[M].北京:电子工业出版社,2010(06).
[5]刘贝,汤斌.云存储原理及发展趋势[J].科技信息,2011(05):470-471.
[6]吴吉义.基于DHT的开放对等云存储服务系统研究[D].浙江大学,2011.
[7]Susanta N.A Survey on Virtualization Technologies.State University of New York,Stony Brook,Feb 2005.
[8]Intel.Intel Virtualization Technology for Directed I/O.Intel Corporation,2006[R].
[9]雷万云.云计算:技术、平台及应用案例[M].北京:清华大学出版社,2011(05).
[10]Zhou Yinan,Wang Yu.HadoopFile System Performance Analysis [J].Electronic teachnology,15-16.
作者简历:叶少霞(1967-),女,本科,高级会计师,研究方向:高校财务管理。
作者单位:广州中医药大学,广州 510405
基金项目:本项目受广东省自然基金“基于云计算的模板式中医药科学计算体系”项目资助(项目编号S2012010008123)。
关键词:云计算;虚拟化;大数据;文件;服务
中图分类号:TP311.52
随着云计算的普及,传统的医疗信息系统建设模式正慢慢向医疗信息云服务建设模式转变,医疗信息系统虚拟化云服务带来了高效率、低能耗、动态扩展与随需应变等各种好处。然而,虚拟化云服务的IO瓶颈难以解决医学图像系统对于大数据量文件传输的效率及安全性需求。各类研究通过IO虚拟化、网络存储、分布式虚拟化、云存储等方式尝试解决,但都难以同时满足大数据流量和访问安全控制的需要。本文通过业务分层的方法,将云计算环境下,中药图谱分析系统中计算密集型业务与文件IO密集型业务分离,并通过随机加密令牌的方式实现安全访问控制,从而解决医疗信息系统向云计算虚拟化环境中迁移时面临的大数据文件传输性能瓶颈问题。
1 云计算时代的医疗信息化
普遍认为,医院信息化发展过程经历三个阶段:第一阶段是医院管理信息化阶段(HIS);第二阶段是临床管理信息化阶段(CIS);第三阶段是区域医疗卫生服务阶段(GMIS),实现预防保健、医疗服务和卫生管理一体化。
随着医疗体制改革的深入,大型医疗机构在完善自身内部信息系统建设的同时,开始探索区域医疗信息化建设,实现区域内医疗机构之间的资源整合和共享[1-2]。区域医疗卫生服务建设需要面对数据共享、人力资源短缺、资金投入巨大以及系统扩展迅速的困难,而云计算恰恰具备数据共享、提高管理效率、降低建设成本的优势,而且云计算面相服务的特性也与区域医疗信息化强调服务的特点不谋而合,因此,医疗信息化建设向区域医疗信息化发展的过程,就必然包含传统医疗信息系统向医疗云服务转变得过程。
2 医疗大数据,云计算虚拟化的瓶颈
大数据时代已经来临,而医疗信息化在大数据时代的最前端。一个图谱文件大约有4万多条数据,一个基因组序列文件大小约为750MB,标准的病理图的数据量则要接近5GB,英特尔全球医疗解决方案架构师预测到2020年医疗数据将增至35ZB,相当于2009年数据量的44倍。然而,研究表明,对于将系统架设在基于IaaS的云服务平台上时,通常会遇到IaaS虚拟设备内部总控调度负载过高的问题,导致其对外输出文件的能力大幅度下降[3];同样,对于IaaS虚拟机平台来说,过多的IO负载会导致其内部虚拟机管理器的调度压力增大,进而影响整个虚拟机平台的运行性能[4]。由于医学数据主要以文件的形式存在,因此,云计算虚拟化环境下文件传输的IO瓶颈问题是制约医疗信息系统向医疗云服务发展的关键问题。
3 提高虚拟化IO性能的研究
目前,研究提高虚拟化云平台中IO性能的方法有云存储、IO虚拟化,云盘、分布式虚拟化等。其中,云存储主要用于提高外挂存储区的IO吞吐量,并不考虑加入业务逻辑以后,整体云服务的IO吞吐量[5-6];IO虚拟化则主要研究实现虚拟机调用物理机IO的机制,不涉及大数据并发的负载均衡处理[7-8];云盘总体而言和其他普通网盘没有根本性的区别,就是其主要业务功能是针对个人用户进行存储和分享的,而不是针对第三方应用进行开发,但是其外链功能和权限功能具有很重要的参考意义[9];分布式系统,能够很好的提高整体系统的负载,但是因其架设在云端上的系统的对外输出仍然由其本身承担,在大量的IO负载下,系统其他对外业务的能力会被极大地压缩[10-11]。
4 PaaS文件服务平台模型
图1 基于PaaS文件服务平台框架
基于PaaS的文件服务模式,与传统的文件传输模式最大的区别在于将文件的存取业务流与实际文件存取的数据流分开,将整体应用业务分为业务层、控制层和数据层三个层次,业务层和控制层可以无障碍地部署在云计算虚拟化空间,数据层则部署在外部物理环境,用户在访问第三方应用的过程中需要获取实体文件时,实际上从第三方应用服务器获得的是文件的访问路径与访问令牌,而实际进行文件交付的是存储服务器组。其中,存储中心和存储服务器组的具体功能如下:存储中心的功能设计:外部应用对文件上传下载请求的权限处理。保存文件实体的信息,文件实体所在的物理位置;为上传请求,下载请求进行权限过滤;为上传请求,下载请求分配存储服务器地址;为外部应用提供内部存储剩余容量、带宽资源等信息;对内部储存服务器内的文件进行调度;对上传的项目、工程、文件夹内的文件进行调度。存储服务器的功能设计:对用户上传、下载请求进行权限过滤;对下载用户返回文件;接受用户上传的文件并保存;向存储中心提供文件信息;接收存储中心发送的文件调度。
5 关键问题解决方案
5.1文件上传流程设计。在文件上传的流程中,存储中心主要提供用户权限校验、分配响应上传请求的存储服务器和拉取上传权限的作用。通过用户权限校验可以在用户提交上传文件流之前,对其上传请求进行拦截。通过上传请求的响应分配,可以综合考量各个存储服务器的当前带宽、流量和存储空间的诸多因素并决定响应此次上传请求的存储服务器。存储中心决定此次响应上传的存储服务器并到此服务器拉取上传权限。用户凭权限到存储服务器上传文件后,存储服务器会将上传结果返回给存储中心进行文件信息的存储和分析。其主要步骤如下:(1)外部应用提出上传文件的请求。(2)储存中心响应请求:①验证外部应用对文件目录的访问权限。②验证外部应用剩余空间、文件大小、工程大小等条件制。③轮询存储服务器,找出最适合响应上传的服务器。(3)到存储服务器拉取上传权限。(4)文件上传权限返回给外部应用。(5)外部应用凭文件上传凭证上传文件到存储服务器。(6)存储服务器返回上传结果到存储中心。 5.2文件下载流程设计。在文件下载的流程中,存储中心主要提供用户权限校验、分配响应下载请求的存储服务器和拉取下载权限的作用。通过用户权限校验可以在用户获得下载文件流之前,对其下载请求进行拦截。通过下载请求的响应分配,可以综合考量各个存储服务器的当前带宽、流量和存储空间的诸多因素并决定响应此次下载请求的存储服务器。存储中心决定此次响应下载的存储服务器并到此服务器拉取下载权限。用户凭权限到存储服务器下载文件后,存储服务器会将下载结果返回给存储中心进行文件信息的存储,分析。其主要步骤如下:(1)外部应用提出上传下载的请求。(2)储存中心响应下载请求。(3)验证外部应用对文件目录的访问权限。(4)找出该文件物理保存的所有存储服务器。(5)综合存储服务器资源,找出最适合响应下载的服务器。(6)到存储服务器拉取下载权限。(7)文件下载权限返回给外部应用。(8)外部应用凭文件下载权限到存储服务器下载文件实体。(9)存储服务器返回下载结果到存储中心。
5.3内部文件调度流程。文件调度可以均衡各个服务器的负载,达到最大化利用存储服务器硬盘、网络、处理器等资源的目的。例如,当某一个文件处于被多个进行下载访问的状态下,通过拷贝调度,将此文件拷贝到2个甚至多个存储服务器中,形成多条对外输出此文件的通道,避免了集中访问同一个存储服务器时遇到的带宽和处理器拥挤。当一个文件通过拷贝调度,并对外输出完毕后,通过文件删除调度可以将重复的文件删除以达到节省存储空间的目的。其主要步骤如下:(1)存储中心对文件访问日志进行分析,确定调度类型。(2)存储中心向相关的储存服务器下发调度命令。(3)存储服务器根据相关命令对文件进行处理:①文件拷贝:将一个文件实体拷贝到另一个存储服务器分流。②文件删除:删除本地一个文件实体。③文件剪切:将一个文件实体从本地剪切到另一个存储服器。(4)存储服务器返回调度处理结果。
6 结束语
该模型不同于其他网络存储系统,其最大意义是使用分层的方法实现了业务流与数据流的分离,免去了数据流从存储服务器传递到云计算虚拟机,再由云端传送至客户端的过程,从而避免云计算环境下虚拟机IO处理性能低下的问题,为实现中药图谱文件在云计算环境下虚拟化改造提供支持,而且本文所提平台框架应用简单,便于第三方进行开发,能够减少第三方应用的业务规模和硬件负担,对于开展云计算区域医疗改革提供可行思路。
参考文献:
[1]石晓敬.基于云计算的区域医疗信息化建设[J].中华医学图书情报杂志,2013(09):20-23.
[2]陈云忠,曹定舟,许源.浅析基于云计算的区域卫生信息系统的构建[J].医院数字化,2011(09):57-60.
[3]宋振华,杨亚军.Xen虚拟机间的磁盘I/O性能隔离[J].小型微型计算机系统,2011(32):1674-1678.
[4]林昊.分布式Java应用(基础与实践)[M].北京:电子工业出版社,2010(06).
[5]刘贝,汤斌.云存储原理及发展趋势[J].科技信息,2011(05):470-471.
[6]吴吉义.基于DHT的开放对等云存储服务系统研究[D].浙江大学,2011.
[7]Susanta N.A Survey on Virtualization Technologies.State University of New York,Stony Brook,Feb 2005.
[8]Intel.Intel Virtualization Technology for Directed I/O.Intel Corporation,2006[R].
[9]雷万云.云计算:技术、平台及应用案例[M].北京:清华大学出版社,2011(05).
[10]Zhou Yinan,Wang Yu.HadoopFile System Performance Analysis [J].Electronic teachnology,15-16.
作者简历:叶少霞(1967-),女,本科,高级会计师,研究方向:高校财务管理。
作者单位:广州中医药大学,广州 510405
基金项目:本项目受广东省自然基金“基于云计算的模板式中医药科学计算体系”项目资助(项目编号S2012010008123)。