论文部分内容阅读
随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。在某些重点专科医院,临床数据的积累已达到百TB的规模,而在组学研究领域更是达到了PB级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化,临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以NoSQL作为存储底层,MapReduce作为计算引擎,构建了面向并行数据挖掘的分布式存储模型MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助NoSQL的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。然后,针对MSPM模型存在的两个主要性能瓶颈进行了优化。为应对集群系统失衡问题,提出了综合应用组合调优片键和FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的访问转移一部分对大文件的直接操作,显著节约了系统总开销。最后,为解决经典Apriori算法在医疗大数据挖掘中,面临的类型复杂、属性高维,开销大,结果针对性差等问题,设计了改进的Apriori-M-DB算法。通过以键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过MapReduce化,一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。