论文部分内容阅读
随着云计算、大数据等技术的飞速发展,世界各国医疗产业信息化建设的进程不断加速,因此以电子病历子系统(EMR)和影像归档通信子系统(PACS)为主的医院信息系统(HIS)得到了前所未有的广泛应用。然而传统的以单一节点数据仓库为主体的医院信息系统(HIS)由于受到硬件能力的限制,在处理大量非结构化数据时容易遇到性能瓶颈,很难做到存储能力和计算能力的双向扩展。本文基于当前大数据处理领域的最新科研成果,设计了一个基于Hadoop的石鼓SCool医疗大数据分析系统,以便更好地满足医院对于大量医疗数据的整合分析的需求。本文针对目前各大医院内部医疗数据信息化建设的实际运行情况,首先设计了基于Hadoop的医疗大数据分析系统的体系结构;然后根据Hadoop框架的特点,并结合Hive、Hbase和Sqoop等第三方工具,利用该系统与HIS之间的协同工作,实现了将传统单一节点医疗数据库中存放的各类医疗数据转为HDFS分布式存储管理的功能;在智能辅助诊断和海量原始数据统计分析研究过程中,提出了一种可变Key值的Map/Reduce算法,同时结合该算法建立了特定结构的Hash表,解决了不同数据类型的Key-Value键值对的存储问题;在数据关联规则挖掘研究过程中,提出了耦合度关联模型,并结合经典Apriori算法,改进了传统兴趣度模型中容易生成错误强关联规则的缺陷;最后,本文使用Java语言对该系统进行了封装与代码实现,通过对随即抽取的5万份电子病历进行数据分析,生成了智能医疗辅助诊断模板,并由实验记录的数据结果证明了该系统比传统的单一节点医疗数据库具备更高的数据统计分析效率。该系统具备实施成本低、数据存储安全可靠、可扩展性强以及数据统计分析速度快等特点,可以为医生在临床诊断过程中提供决策支持,也可以为各类医院对庞大医疗数据群的深入挖掘和统筹分析提供技术保障,在一定程度上提高了医院智能与信息一体化的建设水平,促进了医疗产业的高科技化发展。