论文部分内容阅读
随着深度老龄化社会的到来和“全民医保”大环境下,“收不抵支”将成为医保基金的新常态。目前对于医保基金而言,开源空间并不大,基于临床路径进行费用控制成为医疗改革的必经之路。本文主要基于Spark on Yarn分布式平台,融合机器学习聚类算法、开源中间件Sqoop、大数据分析技术、正则表达式、数理统计、概率分布和JavaEE框架等理论技术,结合国家临床路径的核心内容,对经验临床路径分析所涉及的关键技术进行研究,提出一套由医疗数据迁移、医疗数据清洗、医疗数据分析和应用服务组成的基于医疗大数据的临床路径分析系统的解决方案。运用大数据分析和机器学习算法等技术,对医疗数据进行数据清洗、数据分析等操作,得到符合经验规律的临床路径,简称经验临床路径。本文首先对临床路径的发展现状进行分析,提出本文的研究目标和内容;其次,研究涉及的理论和技术;第三,根据用户需求对分析系统进行需求分析;第四,基于用户需求和现有资源,进行分析系统的总体架构、技术路线、功能模块和数据库设计;第五,对系统的关键模块进行详细设计与实现;基于Sqoop提出一种医疗数据迁移方法;基于Spark on Yarn平台,设计实现医疗数据清洗和分析方案;同时,基于SpringMVC框架,开发经验临床路径的数据服务交互接口。本文的主要工作内容如下所述。1、结合医疗数据迁移的实际需求,扩展Sqoop支持的数据源的数据类型;为支持数据对标、标准化处理和字符编码转换等业务,改造其ORM模块。2、对医疗数据的出院诊断文本进行研究,归纳其数据特征,设计实现从出院诊断文本中提取ICD-10病种编号的方法。分析医疗数据中退费项目特点,设计实现退费项目处理方法。3、基于Spark并行计算特点,对医疗数据清洗和分析的处理流程进行并行化设计与实现,提高分析系统的整体性能。4、基于分析单元的一维指标样本,其分布规律符合高斯分布,结合数理统计和概率分布理论,提出基于样本频率直方图的中心向外扩展算法。基于该算法完成临床路径的一维指标经验范围分析。5、运用机器学习聚类算法DBSCAN分析临床路径的关联指标经验范围。