论文部分内容阅读
医疗部门既是大数据时代的推动者,也是参与者,中医临床数据具有典型的大数据特征,其数据体量巨大,数据类型复杂,中医电子病历包含大量有价值,具有“中医特征”的临床信息。中医药信息化发展“十三五”规划指出,建立中医电子病历专题信息资源库,完善中医药基础信息资源动态更新和共享应用机制。组织和引导开发中医药数据资源,全面提升信息采集、处理、传输、利用、安全能力,释放数字红利,促进信息消费。互联网、社交网络、可穿戴设备等的广泛应用扩充和丰富了中医电子病历的数据来源,数据体量增加,大数据背景下中医电子病历数据应用需求和应用方式也发生了变化,传统医学信息化方式无法灵活、有效地应对。对国内外研究现状分析表明针对中医大数据的研究还处于初始阶段,有关中医电子病历大数据的研究甚少,仍然面临以下关键问题的挑战:①缺乏一种符合中医特色,能屏蔽数据资源的异构性和复杂性的,面向多角色的中医电子病历大数据共享服务架构;②现有中医电子病历存储系统结构单一,缺乏对非结构化以及半结构化电子病历数据的合理有效的存储方案,缺少数据共享和数据安全的保障;③面对大规模的中医电子病历数据,传统数据挖掘方法需花费大量时间和内存空间,严重降低了中医电子病历数据分析的效率。为解决上述问题,以大数据生命周期和大数据处理流程为主线,本文对中医电子病历大数据服务架构、存储方案、数据挖掘方法等进行系统的研究。(1)提出基于多数据源面向多角色的中医电子病历大数据服务架构。采用自顶向下(top-down approach)的研究方法,将文献调查、专家咨询、实地调研相结合,对国内外研究现状及中医电子病历大数据内涵进行总结归纳,分析大数据背景下中医电子病历数据来源、中医电子病历中医特色以及用户角色需求,根据调查分析结果归纳中医电子病历大数据服务框架,从顶层设计角度把握中医电子病历大数据服务整体要素,提出整体设计方案。服务架构包括数据采集层、数据存储层、数据分析层和数据应用层。(2)设计基于MongoDB的中医电子病历大数据共享存储方案。研究大数据背景下中医电子病历数据存储格式和存储需求,基于医疗信息存储和交换的国际标准HL7 CDA对中医电子病历文档进行规范约束,设计中医电子病历CDA文档章节和条目,并通过对CDA模板中各元素的嵌套和细化实现中医电子病历数据信息的规范化表示,以实现中医电子病历区域共享。分析传统关系型数据库在非结构化和半结构化数据存储方面的缺陷和不足,基于NoSQL数据库中的MongoDB数据库设计中医电子病历存储方案,实现HL7 CDA文档、声音、图片以及医学影像的一体化存储,并以疾病类型、患者ID为基础建立数据组织和存储规则,建立数据集之间横向和纵向的关联,为中医电子病历的检索查询、分析挖掘奠定基础。研究中医电子病历共享存储的安全问题,在充分论证现有标准、法律法规以及相关技术基础上提出电子病历隐私数据保护方法。(3)大数据背景下中医电子病历数据挖掘研究与实现。对比大数据挖掘与传统数据挖掘的区别,研究大数据挖掘工具和方法,分析中医大数据挖掘的理念和流程。为适应大数据背景下中医电子病历日益增长的数据量,对经典的关联规则Apriori算法进行基于Hadoop平台的并行化改良,并利用并行化Apriori算法对中风病中医电子病历中药处方配方规律进行实例挖掘,验证了改良算法的可行性和性能优越性。本论文是将大数据技术理念应用于中医电子病历数据服务的研究初探,通过对中医电子病历数据采集、存储、分析与应用中关键问题的研究与实践,弥补传统数据处理方法在中医大数据处理上的不足与缺陷,为大数据技术在中医药领域的具体应用提供了重要的理论支持和实践指导。