论文部分内容阅读
随着医疗信息技术的发展,医院在为患者提供医疗服务的过程中,积累了海量的、有价值的临床数据资源,越来越多的临床数据被存储在医疗数据库中,如何从这些大量的历史临床数据中发现有价值的信息,为以后的疾病诊断和医学研究做出贡献成为大数据时代研究的热点问题。为了解决该问题,近年来国内外的学者将数据挖掘技术应用到医学领域中,对医学数据的挖掘与分析成为了目前的研究热点。本论文通过对上海市某大型综合性三甲医院的信息化现状进行调研分析,针对医院信息系统面临的问题和存在的缺点,设计了医院的临床大数据分析平台,包括逻辑架构和物理架构设计。基于该平台采集甲状腺疾病的临床数据,利用数据挖掘技术进行分析研究。本文的主要工作包括以下四点:一、针对上海市某大型综合性三甲医院的信息系统现状,对现有业务系统的数据进行梳理,设计了以数据仓库为基础的临床数据分析平台。数据分析平台采用标准化的数据接口,整合医院中所有临床信息系统产生的医疗数据,为利用计算机对不同病种临床数据进行挖掘和分析,辅助医疗诊断和决策奠定了基础。二、从所构建的临床医疗数据平台上抽取了甲状腺病人的临床数据,包括病人的基本信息、检验室检查指标数据和处方等。对原始数据采用数据清理、变换、集成等ETL技术对其进行了预处理,并实现了数据的多维分析和可视化。三、在甲状腺疾病的临床医疗诊断中,对疾病种类的准确诊断是治愈的关键。针对甲状腺疾病的临床数据,本文提出一种基于随机森林的甲状腺疾病诊断结果的分类方法,该方法首先采用主成分分析法对数据集进行特征选择,降低数据维度,然后利用随机森林算法实现分类。该方法的特点在于引入了主成分分析对甲状腺疾病数据进行降维,弥补了随机森林算法在属性选择方面的不足。四、由于不同疾病间具有相关性,一种类型的疾病的发生常会同时出现其他病症。在治疗过程中,也会使用多种药物进行联合治疗。针对这些问题,本文利用数据挖掘中的关联分析算法分别对甲状腺疾病处方用药和并发症的关联规则进行了挖掘,为临床治疗药物选择和疾病预防提供了参考,可以降低治疗成本,提高治疗效果。