医学影像云服务平台基础架构研究与实践

被引量 : 43次 | 上传用户:roath
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学影像技术在近十多年来取得了突飞猛进的发展。新技术、新设备不断涌现。320排螺旋CT、超高场强磁共振、分子影像、功能影像、多模态融合成像等技术大大丰富了医生的诊断手段,提高了疾病的诊断效果,但是同时也带来了一定的问题:1)高端影像设备价格昂贵,动辄数百万到数千万元,很多医院简单地将设备档次作为体现医疗水平的标准,竞相引进高端设备,导致医疗成本居高不下;2)医学影像设备一次扫描能产生数百至数千幅图像,病人带走的胶片只包含其中极少一部分图像,且无法进行参数调节和三维、动态显示,诊断价值大打折扣。病人转院时,医生多会以此为由要求病人重新检查,不必要的重复检查进一步加重了居民的医疗负担;3)X线机、超声等影像设备在小医院已有很高的普及率,沿海发达地区部分乡镇医院甚至引进了64排CT以上的先进影像设备,但是却缺乏优秀的影像诊断医生,设备的利用率低;4)基层医疗机构严重缺乏资金、设备、技术和人才。人们有病都往大医院挤,导致了大医院“人满为患”、基层医院“门可罗雀”。这种医疗资源不均衡的现状是造成“看病难、看病贵”的重要原因。5)影像诊断难度大,需要诊断医生有雄厚的基础知识和丰富的阅片经验,不断涌现的新技术新设备对影像诊断教学提出了更高的要求。医学院校传统的教学手段和教学设备远远满足不了不断扩大的招生规模的需求;6)影像设备产生的海量图像资料需要长期保存,国内医院普遍缺乏远程容灾和备份的措施,一旦发生火灾、地震、海啸等自然灾害,可能导致资料完全丢失,造成不可弥补的损失。通过网络技术实现区域内医疗资源的共享与医疗过程的协同,是均衡医疗资源、解决“看病难、看病贵”问题的重要手段。远程影像协作诊断具有临床价值高、诊断难度大、基层医院迫切需要、DICOM标准稳定成熟、通过共享与协作可大幅度降低医疗费用等特点,是区域医疗协作中最具临床价值的应用。因此,构建区域化的医学影像服务平台,开展医学影像远程会诊、影像转诊、虚拟影像专科、远程教学、远程灾备、影像代存、典型病例查询、图像内容检索等服务,实现区域内影像设备及影像诊断专家的充分共享和高效协作,对于均衡医疗资源、提高基层医院诊疗水平、提高影像设备的使用效率、提高医疗服务质量、降低医疗费用具有重要的意义。构建区域医学影像服务平台,开展远程影像协作应用是一项庞大的系统工程,采用传统建设全院PACS的技术手段构建大规模的区域医学影像服务平台面临着巨大挑战:1)建设费用高。PACS医学影像的数据量远远大于HIS、LIS等其它医疗系统的数据量,一个大型三甲医院每年PACS图片数据量高达数TB到数十TB。区域内的医学影像数据量将达到PB(1024TB)以上级别。区域医学影像服务平台需要提供远程灾备和影像代存等服务,因此需要考虑区域内的全部影像数据量。采用传统FC SAN(光纤存储区域网络)构建PB级容量的存储系统,建设费用极高;2)性能和扩展能力不足。即便是性能和稳定性最好的FC SAN,其传输带宽和处理能力也难以满足PB级海量数据的处理和传输要求。同时,增加存储设备时,整个应用系统的目录结构一致性难以保证。目前市场上虽然已出现存储虚拟化产品,可以将多台存储设备虚拟化成一个统一的存储池,解决存储架构的一致性和动态扩展问题,但是出于市场考虑和技术限制,厂商一般都只支持自有存储产品的虚拟化,难以实现不同厂商设备的兼容;3)可用性受限。全院PACS常用“在线—近线—离线”三级存储模式。最近的在线图像数据存放在性能高的FC SAN中,稍久一点的近线图像存放在性能稍差的IP SAN或NAS存储设备中,超过一定时限的图像则离线存储到光盘库或磁带库中。这种方式的好处是可以节省成本,保证医疗诊断应用的性能,但是整个系统的可用性受到限制,离线图像数据难以实时获取;4)缺乏一体化的应用软件。目前构建区域PACS系统在技术上大多是采用全院PACS系统的架构,但是这种架构只适合高速、稳定、安全的园区网络环境。在带宽受限、稳定性差、受防火墙阻断的公网环境下,难以满足应用需求。另外,区域医学影像协作中最重要的应用——医学影像远程会诊,目前还基本采用“点对点”的模式,缺乏一体化、跨平台、高可用的医学影像管理与协作应用软件。随着云计算技术和应用模式的快速兴起,为构建低成本、高可用、高性能、易扩展的区域医学影像服务平台提供了一条有效的途径。我们承担的课题就是研究通过高速城域网、医保专网、电子政务外网、互联网等传输介质,采用云计算技术构建区域医学影像云服务平台,为区域内的各类医疗机构和人员提供SaaS模式的医学影像远程应用服务。而高性能、高可靠、易扩展的海量医学图像分布式存储架构和并行处理技术将是医学影像云服务平台的基础和关键,也是本论文的研究重点。Google作为全球最大的搜索引擎和云计算服务商,率先遇到了PB级海量数据的处理问题。她没有采用传统的存储和高性能计算技术,而是独辟蹊径地创造了GFS分布式文件系统和MapReduce分布式计算技术,通过聚合数以万计普通服务器的存储和计算资源,实现了超大规模数据集的高效处理,取得了巨大的成功。Apache Hadoop项目则是GFS和MapReduce的开源实现,目前已成为世界上最有影响力的开源云计算平台,取得了广泛的应用。针对Hadoop平台的特点和医学影像云服务平台的需求,我们设计了一种HDFS和FC SAN相结合的“在线—归档”二级存储架构HMISA(Hybrid Medical Image Storage Architecture),取代区域PACS系统常见的“在线—近线—离线”三级存储架构。并在其基础上开展了基于MapReduce框架的医学影像后处理等分布式计算应用。HDFS分布式文件系统具有如下特点:1)专门针对PB级以上海量数据的快速存储和处理而设计,已在Yahoo、FaceBook、亚马逊、百度、淘宝等海量数据处理应用平台上得到了广泛验证;2)系统可扩展性高,只需简单添加服务器数量,即可实现存储容量、磁盘IO吞吐率、传输带宽和计算能力的线性增长,并保持一致的文件目录结构;3)数据冗余度高,缺省每份数据在3个不同的节点上保留副本;4)适合“流式”访问(Streaming access),即一次写入,多次读取,数据写入后极少修改,适合医学影像文件的访问特点;5)除了数据存储能力外,与HDFS共生的MapReduce分布式计算框架还可充分利用各服务器CPU的计算资源,便于后期开展基于海量医学影像数据的图像预处理、格式转换、图像融合、内容检索、三维重建等数据密集型应用。但是,Hadoop在构建医学影像存储系统时还存在以下问题:1) Hadoop的设计理念是针对大文件进行优化的,其默认的数据块大小为64 MB,而医学影像资料中常见的CT、MRI的图像大小大多为512 KB左右,一次拍摄产生的图像数量大约为100~200幅,如果直接将大量的小文件存储在HDFS文件系统中,过多的元数据将导致HDFS主节点NameNode的内存消耗过大,降低集群的性能。2)HDFS的设计理念不适合需要低时延的实时应用,其写入性能大大低于读取性能,不太适合需要快速获取图像资料并撰写诊断报告的PACS实时应用。针对Hadoop平台不适合存储医学影像小文件的问题,我们采用Hadoop的SequenceFile文件格式,设计了一种适合HDFS特点的S-DICOM序列化医学影像文件格式,通过Key/Value键值对的形式,将一个病人一次检查产生的所有图像合并成一个序列化文件。这样可以大大提高HDFS处理的性能,防止元数据服务器(NameNode)内存消耗过大的问题。同时,Key/Value形式的数据也是MapReduce分布式计算平台的最佳输入数据结构,便于后期开展基于医学影像文件的数据密集型应用。单纯的HDFS分布式文件系统不适合实时应用,但是具备低成本、易扩展、高性能、高可靠的特点。传统的集中存储(FC SAN)则非常适合小文件的快速读写。因此,结合两者的优点我们设计了一套FC SAN和HDFS结合的混合式存储架构HMISA,将常见的PACS“在线—近线—离线”三级存储简化为“在线—归档”两级存储架构。一年以内的医学影像资料以DICOM原始格式保存在FC SAN一级“在线库”中,可满足PACS阅片和撰写诊断报告等实时应用的低时延要求。超过一年的图像则转换成S-DICOM格式保存到HDFS二级“归档库”中,通过SDFO(S-DICOM File Operator)文件访问组件,屏蔽底层图像读写操作的细节,为上层的SaaS模式医学影像应用系统和DICOM应用组件提供统一的图像查询、读取和写入接口。Hadoop内置的MapReduce分布式计算框架为开发人员屏蔽了任务调度、节点容错、节点通讯、负载均衡等并行计算中难以处理的细节,大大降低了分布式计算系统的开发难度。同时,MapReduce采用了“将计算移动到数据所在位置”的设计理念,特别适合海量医学影像的数据密集型分布式处理。我们在分布式存储架构的基础上编写了基于MapReduce框架的医学影像分布式处理程序,包括DICOM图像批量转换为JPEG格式、病人隐私信息批量清除、批量生成缩略图、网络访问日志的分布式导入和查询等。并在测试集群中验证了分布式计算的性能及部分参数对性能的影响。测试结果表明Hadoop集群可以有效利用各存储节点的计算能力,集群的性能远远高于单机处理的能力,并且通过水平扩展(Scale-out)的方式可以快速实现存储容量和处理速度的线性增长。综上所述,本论文的特色和创新主要包括:1)分析了区域医学影像共享与协作的需求、技术进展及面临的主要问题,设计了区域医学影像云服务平台的整体技术架构,包括逻辑架构、网络架构、存储架构和软件架构等。2)设计了一种FC SAN和HDFS相结合的医学影像“在线—归档”二级存储架构HMISA(Hybrid Medical Image Storage Architecture),解决区域PACS常见的“在线—近线—离线”三级存储架构的性能、可扩展性和可用性等问题。设计了S-DICOM医学影像归档文件格式,解决HDFS不适合存储和处理大量小文件的问题。开发了一套SDFO文件访问组件,屏蔽HMISA存储架构底层图像读写操作的细节,为上层的SaaS模式医学影像应用系统和DICOM应用组件提供统一的图像查询、读取和写入接口。3)基于MapReduce框架设计开发了DICOM图像转换JPEG格式、病人隐私信息清楚(De-identification)、批量生成缩略图等医学影像分布式数据处理程序,并在Hadoop集群上作了相关的性能测试。测试结果表明Hadoop集群可以轻松突破单台服务器的性能极限,满足区域海量医学影像数据的快速存取和处理需求。
其他文献
介绍在2007年第44届IFLA国际风景园林学生设计竞赛中获得荣誉奖的作品的构思创作过程和主要的方案内容。该方案以温州杨府山垃圾处理场这个在城市化条件下面临突出生态灾难和
生物是以实验为基础的自然学科。生物实验教学是初中生物教学的重要组成部分,是学生学习生物学的基本方式之一,生物科学素养与兴趣的培养在很大程度上依赖生物实验教学。生物实
20世纪80年代以来,反思一词在美、英、加、澳及欧洲大陆被人们越来越多地加以引用,并很快影响到西方世界以外的各国教育,现已成为凝聚教育改革力量的标识或口号。关于反思性教学
<正>类风湿关节炎(RA)是一种病因不明的自身免疫性疾病,多见于中年女性,主要表现为对称性、慢性、进行性多关节炎。关节滑膜的慢性炎症,增生形成血管翳,侵犯关节软骨、软骨下
本文以平行文本为研究核心,明确平行文本的含义和特征,探究平行文本在科技德语翻译中的运用,提高科技德语翻译质量和翻译水平,进而为应用翻译实践开辟新的思路、提供一定的借
目的:探讨针灸和质子泵抑制剂(PPI)联用与单纯PPI治疗胃食管反流病(GERD)的临床疗效。方法:选择临床GERD患者76例,随机分为针灸和PPI联用组(治疗组)及单纯PPI对照组(对照组)
本研究利用农杆菌介导遗传转化(ATMT)的方法构建了棉花黄萎病菌强毒菌株Vd080突变体库,并对其质量进行评价。对随机选取部分突变体进行表型分析,得到产孢量骤减、生长速率下降及
威廉姆·罗宾逊强烈反对将温室培育植物摆放到室外展示的花卉应用方式。他推崇植物自然生长状态下的美,提出自然化种植的思想和野生花园的概念。其思想包含可以应用一切适应
黑格尔哲学是高度思辨的纯粹哲学,其原则是思辨的具体同一或绝对同一。本文首先考察了黑格尔思辨的同一性概念在哲学史上的来历,考察了黑格尔之前的诸多哲学家与同一性概念之间
电站锅炉过热器管是锅炉内部主要受热面结构件,过热器管的失效是影响锅炉安全、经济运行的主要因素之一,其安全稳定运行与否直接关系到整个电厂的安危。因此,对过热器管的剩