肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhangliye5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。在某些重点专科医院,临床数据的积累已达到百TB的规模,而在组学研究领域更是达到了PB级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化,临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以NoSQL作为存储底层,MapReduce作为计算引擎,构建了面向并行数据挖掘的分布式存储模型MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助NoSQL的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。然后,针对MSPM模型存在的两个主要性能瓶颈进行了优化。为应对集群系统失衡问题,提出了综合应用组合调优片键和FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的访问转移一部分对大文件的直接操作,显著节约了系统总开销。最后,为解决经典Apriori算法在医疗大数据挖掘中,面临的类型复杂、属性高维,开销大,结果针对性差等问题,设计了改进的Apriori-M-DB算法。通过以键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过MapReduce化,一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。
其他文献
科学化的考试对学生的发展有许多积极作用,使用考试手段能够检测教育质量,规范和引导教师的教学行为,促进学生积极努力地学习,而且对培养学生分析问题、解决问题等综合素质能力可
随着计算机网络通信和电子商务的迅速发展,网络上信息传输的安全性已经引起社会的广泛关注,信息安全已经成为人类信息生活发展的重要保证,因此用户对于网络上信息传输的质量和安
在宽带码分多址接入(WCDMA)系统中,随着数据业务速率的不断提升,Iub接口越来越成为数据传输的瓶颈,怎样更高效地利用Iub传输资源成为业界研究的热点。过准入策略进而被提出。过
随着信息化时代的到来,传统的文献检索方式越来越难以满足读者的需求,文献检索方式信息化的需求越来越迫切。文献检索方式信息化,需要将传统的纸质文献检索目录卡片转化为电
随着Internet的迅速发展,网络安全问题显得日益突出。目前,网络上的攻击方式逐渐呈现出一些新特点,转为小规模的,针对特定用户和目的的攻击。另外一方面,仅仅依靠反病毒软件保护系
学位
知识管理本质上是一种管理思想,实施知识管理是组织的一项投资,任何投资都要对其投入效果进行评估和测量。所以在实施知识管理后,组织还需要建立知识管理实施效果跟踪和评估措施
短期时序记忆是工作记忆的一种,它对从一般的知识获取到推理都起到了重要作用。以国际WIC研究院的研究课题为例,归纳推理、演绎推理、学习稳定性、决策、问题求解的神经科学基
软件可靠性是软件质量的重要方面.软件失效是系统失效或系统服务质量降级的主要因素.准确地评估软件系统的可靠性、预测软件可靠性随测试过程的增长能为软件发布和测试资源的
Web服务是近年来新兴的Web应用方式,其发展十分迅速。随着其应用范围的扩大以及Web服务动态组合需求的提出,Web服务的发布与发现,成为Web服务应用的一个关键问题之一。 传统