论文部分内容阅读
甲亢(甲状腺功能亢进症)是一种病程长、并发症多且严重危害人类健康的病症,近年来发病率更有增高的趋势。各大医院在为甲亢患者提供临床医疗服务的过程中,随着时间的累积会产生大量的临床检验数据,这类检验数据对于分析甲亢患者病情有着重要的意义。通过患者疾病数据与大数据分析技术相结合的方法来研究甲亢疾病的产生与发展过程,有助于实现甲亢患者的个体化医疗。甲亢患者在治疗过程中,医生会根据某甲亢患者的T3(三碘甲腺原氨酸)、T4(甲状腺素)、FT3(游离三碘甲腺原氨酸)、FT4(游离甲状腺素)、TRAB(甲状腺受体抗体)、TSH(促甲状腺素)、TGAB(甲状腺球蛋白抗体)、TPOAB(甲状腺过氧化物酶抗体)等八项临床检验指标,对患者的病情进行判断,相应地给出具体的治疗方案。针对单个甲亢患者的所有临床检验指标,以患者体为基本单位,并按治疗时间的顺序进行排序,则可形成对应于该患者临床检验指标的多维时间序列。在此基础上深入研究甲亢疾病多维临床检验指标时间序列的聚类分析,从中发现临床检验指标变化趋势相似的患者群体,帮助医生全面深入的了解甲亢检验指标与疾病之间的关系,可以为患者提供更加准确的诊断和更具针对性的治疗。本文以真实的甲亢患者临床检验数据为基础,设计并实现了一种基于多维时间序列的甲亢患者临床检验指标数据分析系统。该系统主要包含三个模块:1)数据预处理模块,主要作用是对源数据的预处理和对结构化数据的同步化处理;由于从医院拿到的真实甲亢患者数据,是包含了许多噪音的非结构化数据,本文首先通过对复杂非结构化数据进行预处理,然后根据数据本身特点,提出了一种适用于时间序列的规则化算法,实现不同时间序列维度及时间点的同步化。2)多维时间序列聚类分析模块,主要功能是同步化临床检验指标时间序列的深度挖掘与分析;在同步化临床检验指标时间序列数据的基础上,通过引入一个用户自定义参数即噪声点占有率Noise Pro,对DBScan算法进行了改进,提出了一种基于密度划分思想的多维非同步临床检验指标时间序列聚类Lab TS-CLU算法。3)并行化处理模块,主要功能是提高整个系统的执行效率,应对规模庞大的数据量;考虑到各个机构甲亢患者临床检验数据经过长期的积累,形成了规模庞大的数据量,本文利用Map Reduce并行计算框架实现了甲亢患者临床检验指标时间序列的处理分析过程,并将其部署到开源分布式平台Hadoop上。最后,本文利用某三甲医院大量甲亢患者近10年的临床检验数据集进行实验,结果表明该系统提出的算法无论是在执行效率还是在准确率方面都优于现存的主流时间序列分析算法。并且通过Hadoop并行化平台的处理,大大提高了系统分析的执行效率。实验结果证明了本系统的有效性,可以为医生对于甲亢疾病的全面了解提供一定的技术支持。