论文部分内容阅读
随着互联网的日益发展,各行各业的用户量和数据量都呈现爆炸式的增长。面对越来越多的数据量,传统的数据库和分析系统已经不能满足行业的业务需求,大数据框架成为近年来热点,不仅提供了对结构和非结构的存储查询模式,而且支持智能决策的大数据分析和智能挖掘计算技术。在医疗行业中,不但存在大量传统的病人、医生信息等结构化管理数据,同时存在大量诊断记录、监测、影像等非结构化数据,如何有效利用大数据技术,实现数据的多维统计分析,为医生提供多视角、直观的病人信息,为诊疗决策提供依据;如何利用数据挖掘技术,从大量历史病例中挖掘潜在规律,实现病因追溯、疾病建模、自动诊疗方案建议等智能医疗。因而研究大数据架构下,研究医疗数据分析、智能计算相关技术,为智能医疗平台构建提供经验,具有良好的应用意义。为实现医疗大数据分析平台,本文以睡眠呼吸疾病为案例,采用大数据实时处理框架Druid,作为系统的数据仓库,实现联机分析处理(OLAP)的数据统计分析模块。采用开源大数据框架Spark作为数据挖掘模块的分析引擎,使用改进的加权FP-growth等算法对数据进行聚类分析、关联规则挖掘。在此基础上,完成了核心功能模块设计开发。主要工作和创新点如下:1、面向睡眠呼吸分析的数据建模及OLAP时空分析模块设计实现。基于OLAP的技术思想,根据病人、医生、诊断记录等不同维度信息表,构建适合本系统业务的“事实星座”多维数据模型,完成了结合时间和空间的OLAP分析。实现了基于时间维度的OLAP上卷、下钻查询算子以及基于地区和经纬度的不同空间维度信息的统计分析。2、研究并实现了基于K-means的病情画像和诊断推荐算法。根据睡眠呼吸障碍病人诊断治疗数据,研究生理和疾病指标进行聚类分析方法,实现对病情的画像,在此基础上,提取同类症状治疗方案,针对无创治疗中呼吸机设置,提取设置,实现个性化方案推荐。本文对几种典型的聚类算法进行性能对比实验,选择了折中准确率和效率性能的k-means算法,并选用类内距离作为评判依据,确定了k-means算法中类别数k值为5。3、提出了基于加权FP-growth的重要指标挖掘算法。根据改进算法实现了对病人指标的关联分析,挖掘不同指标之间的相关性,辅助医生进行诊断决策。FP-growth相对传统的Aprior关联规则学习方法,通过树型结构对项集进行存储,提高了频繁集挖掘效率,本文进一步提出引入医生经验,根据不同指标在实际中的重要程度,对其赋予相应的权值,提升了对指标间的关联规则刻画能力。4、设计并实现了呼吸睡眠分析系统的整体架构。完成统计分析层和数据挖掘层基础上,设计实现了系统的用户管理模块、数据导入模块、数据存储模块和前端模块。其中用户管理模块主要是面向不同用户的登录注册;数据导入模块主要是包括离线数据和感知数据的导入;数据存储模块主要是基于Druid数据仓库对实时数据和离线数据的存储;前端模块主要是使用Echart可视化工具和地图接口进行数据的展示,包括折线图、柱状图、热力图等形式。