论文部分内容阅读
随着社区居民生活水平以及健康理念的不断提高,以居民健康信息为核心的数据管理平台在互联网技术的推动下逐渐成为当前医疗信息化服务的新模式。而云计算、大数据的出现,不仅解决了医疗机构海量数据的存储问题,同时提供了强大的数据挖掘以及数据计算能力,从而体现出医疗数据信息化的巨大优势。本文为解决社区居民健康数据在采集和存储等方面的难题,鉴于传统关系型数据库在存储、计算以及检索等方面的不足,结合云计算存储理论,依托当前流行的大数据应用趋势,建立以社区居民健康数据为中心的、基于Hadoop的健康数据管理系统,同时针对居民健康数据的基本需求,综合NoSQL数据库HBase、全文搜索服务器Solr的特点与优势,提出了HBase+Solr的非结构化数据存储与检索方案的设计与实现,从而为社区居民提供便捷的健康信息存储与访问服务,进一步提高社区医疗服务质量。本文首先着眼于大数据平台在医疗系统中的关键地位,深入学习和研究了Hadoop平台和HBase数据库等关键技术,接着在以理论为基础的条件下,针对当前业务逻辑的实际需求,分析并设计了以Hadoop为数据平台的整体系统架构。随后对系统功能模块进行划分,并对各个子模块进行详细的设计与实现。本文采用面向列的HBase数据库存储大量的非结构化健康数据,并通过健康元数据集的选择,实现了健康数据的标准化建模,同时充分利用Hadoop云存储的特点,解决了居民体检数据以及医疗记录信息在同步过程中的数据传输和存储问题。针对HBase在非RowKey等多条件字段查询方面的不足,本文提出了基于Solr集群的二级索引设计方案,进而实现高效的数据检索服务,最后利用MapReduce并行计算模型对居民相关健康生理数据进行统计实现。本文在系统测试部分,针对系统在真实运行环境可能遇到的问题,设计并模拟了对Hadoop集群的可靠性以及读写查询性能测试,通过测试结果的对比分析,验证了系统的可行性。