论文部分内容阅读
医疗大数据指的是个人因疾病、门诊、住院、体检、健康活动及医院日常管理所产生的海量数据。医疗大数据的发展与人们的生活息息相关,具有重大的战略意义,而在这些数据中的医学影像数据作为非结构化的图像数据,其传输、存储和检索操作无法通过常规方法实现,整合这些功能的系统就是医院的PACS系统。随着国内对于医疗卫生的日益重视和国家的大力投资,PACS系统已经应用到所有医院的信息化管理中。在PACS系统中,医学影像的传输、存储和检索功能互不交叉,其性能和技术有着诸多不足之处,本课题着重于这三个关键功能模块,采用优化框架和算法提高系统整体的运行效率。
本文的研究核心是医学影像大数据的传输、存储和检索,这三个功能分为三个模块来实现。传输部分基于实时大数据流式处理框架,需求分析部分主要围绕数据处理框架和数据库特性对比,采用了流式框架的数据处理优势。在搭建完集群平台环境后,设计数据传输任务拓扑,将整体传输流程分为影像采集、数据压缩和文件推送三个逻辑组件,最终将医学影像数据从源地址推送到优化后的数据库中。传输部分提出了基于实时拓扑的负载均衡算法和基于关联任务感知的任务调度算法,存储部分采用数据库的节点散列算法,解决数据库在写入数据过大时的存储热点问题,集成了ThriftIDL网络通信协议,并优化了数据结构和服务接口,检索部分考察了不同用户和场景对于影像检索的需求,设计了数据表的多级检索结构,并与基于元数据表的检索方法进行实验对比。整个传输存储系统在集成了这三个功能模块后最终形成一个完整的信息管理系统,用于医院或医疗机构等对于医学影像大数据的日常管理和监测调度。
系统实验结果表明,基于实时流式计算框架的影像传输在速度和性能上得到了有效地改善,基于实时拓扑的负载均衡算法优化了计算集群的资源分配,提高了集群的运行负载能力,优化后的任务调度算法则减少了集群进程间的通信消耗,最终的测试实验证实了系统传输能力得到了有效的提升。本文在存储方面改善了数据库的存储热点问题,优化了ThriftIDL通信模型,提高了整体的存储效率。在影像的检索部分通过和默认的基于元数据表的检索方法的对比实验证明了多级检索结构的设计有效提高了系统的整体检索速度。
本文的研究核心是医学影像大数据的传输、存储和检索,这三个功能分为三个模块来实现。传输部分基于实时大数据流式处理框架,需求分析部分主要围绕数据处理框架和数据库特性对比,采用了流式框架的数据处理优势。在搭建完集群平台环境后,设计数据传输任务拓扑,将整体传输流程分为影像采集、数据压缩和文件推送三个逻辑组件,最终将医学影像数据从源地址推送到优化后的数据库中。传输部分提出了基于实时拓扑的负载均衡算法和基于关联任务感知的任务调度算法,存储部分采用数据库的节点散列算法,解决数据库在写入数据过大时的存储热点问题,集成了ThriftIDL网络通信协议,并优化了数据结构和服务接口,检索部分考察了不同用户和场景对于影像检索的需求,设计了数据表的多级检索结构,并与基于元数据表的检索方法进行实验对比。整个传输存储系统在集成了这三个功能模块后最终形成一个完整的信息管理系统,用于医院或医疗机构等对于医学影像大数据的日常管理和监测调度。
系统实验结果表明,基于实时流式计算框架的影像传输在速度和性能上得到了有效地改善,基于实时拓扑的负载均衡算法优化了计算集群的资源分配,提高了集群的运行负载能力,优化后的任务调度算法则减少了集群进程间的通信消耗,最终的测试实验证实了系统传输能力得到了有效的提升。本文在存储方面改善了数据库的存储热点问题,优化了ThriftIDL通信模型,提高了整体的存储效率。在影像的检索部分通过和默认的基于元数据表的检索方法的对比实验证明了多级检索结构的设计有效提高了系统的整体检索速度。