论文部分内容阅读
近年来,许多国家都在积极努力的加快医疗卫生事业改革,促进医疗卫生事业快速发展,不断推进医药卫生信息化的步伐,并充分发挥其协助决策和辅助作用,促使科学技术与日常管理、诊断和治疗方案以及日常的监督和管理能够恰当、高效融为一体。伴随着医疗信息化的发展进程,医疗行业遇到海量数据和非结构化数据的挑战。因此,可以将数据挖掘技术应用到医疗卫生领域,深层次的挖掘这些医疗数据背后隐藏的知识,并将发现的知识或规则应用于临床决策中,使用计算机辅助医疗决策,向医院医生提供辅助医疗方案。数据挖掘产生的知识已被证实能够有效的预防、预测慢性疾病,改善临床医生的决策,减少药物治疗事故,提高坚持推荐的护理标准,提高卫生服务质量和效率。本文一开始介绍了常见的数据挖掘方法,欲使用这些方法获得疾病的危险因素。考虑到患病的复杂性,病人患病通常不是单单的患一种疾病,可能会伴有患其他并发症的危险因素。根据临床病人的发病特征及诊疗数据,文中以医院提供的高血压和高血脂病人病例为例,采用多种数据挖掘方法,分析得到高血压和高血脂疾病的共同危险因素,有效地降低了数据维度,降低了研究复杂度。近年来的研究发现集成分类器相对于单分类器来说,表现出巨大的优势。文中在数据挖掘环境Weka下,利用标准数据集UCI中的9个数据集进行验证实验,发现集成的方法不同程度的提高了单分类器的分类准确率,而且以C4.5和REPtree作为训练基分类器的方法要比以Decision stump作为训练基分类器的方法要好。考虑到集成分类器在分类预测方面的优势,将分类器集成技术用于多种疾病的预测诊断上,旨在提高疾病的预测准确率。文中以高血压和高血脂疾病的诊断为例,根据整理好的高血压和高血脂数据集,利用集成分类器明确诊断病人是患高血压、患高血脂、未患病还是同时患有两种疾病,根据诊断结果指导医生诊疗方案。在Weka平台下,通过实验,从分类诊断结果的一致性、误差计算及高血压和高血脂预测的AUC值等方面来衡量集成分类器对两种疾病的分类预测性能,结果表明对高血压和高血脂疾病的预测诊断,集成分类器的整体性能优于单分类器,而且C4.5集成分类器性能最优。