论文部分内容阅读
结核病多年来一直严重威胁着各国人民的身体健康。我国是全球22个结核病高负担国家之一。信息技术的不断进步,不断发展,各大医院中中也都使用医疗管理系统进行日常工作,使得其在医疗设备和仪器的数字化后,信息量也在不断的增长扩大。如何通过高效、智能的计算机算法对海量肺结核疾病诊疗数据进行数据挖掘,并进行智能诊断,是本文研究内容。通过收集整理北京市昌平区结核病防治所、北京市结核病控制研究所的8210例肺结核病人档案,应用数据库技术,构建基于SQL Server 2010的疾病电子档案,运用数据挖掘方法中的粗糙集和决策树方法,建立肺结核疾病智能诊断模型。考虑到医学大数据及数据共享,本文搭建了基于hadoop的大数据平台,构建肺结核疾病诊断智能诊断云系统,以满足医学大数据的需求。本文的研究内容及主要工作包含以下4点:1、本文对数据集进行预处理后,优化了数据集,以应对医学数据中的存在噪声、不完全的问题。本文选择数据挖掘中的聚类方法对肺结核疾病数据进行预处理;保证数据的一致性和不确定性,并将其转化为适合挖掘的形式。该项操作,能够很好地进行后期高质量的数据挖掘。2、肺结核疾病因个体不同所表现出的症状也有差异,数据属性众多,导致挖掘效率不高。针对这一问题,本文运用粗糙集理论进行属性约简,并提出适用于SQL语言条件信息熵计算方法,完成属性约简。利用基于数据库的粗糙集属性约简方法,去除了肺结核疾病数据中的冗余属性。3、在模型构建中,针对单一挖掘方法挖掘效率不高的问下,本研究应用粗糙集和决策树相结合的方法完成模型构建。对比使用单一的决策树方法和粗糙集方法,本文提出的粗糙集约简与决策树规则提取相融合的优化算法,具有良好的适用性及优势,在保证诊断的客观性的前提下,有效的提高了肺结核疾病诊断的准确性。4、为满足不断增长的医学大数据的需求,本文在构建肺结核疾病诊断模型的基础上,应用hadoop技术搭建大数据云平台,并建立肺结核疾病智能诊断系统,将云计算应用到医疗系统当中,有效地处理医疗数据,为肺结核疾病诊断提供决策支持。