论文部分内容阅读
心血管疾病是危害全球公共健康的重大问题,冠心病作为一种常见的慢性心血管疾病,其发病率、死亡率逐年攀升,且呈现年轻化趋势,对人类社会的危害日益加剧。抑制冠心病发病甚至致死的根本途径在于早期预警和诊断,研究如何在临床早期无创、无损识别冠心病高危个体具有重要的临床医学意义和显著的社会经济效益,机器学习算法的应用提供了解决上述问题的可能。本文旨在研究集成学习算法用于无创无损早期筛查诊断冠心病的潜在应用价值。围绕这一目的,本文全面系统地研究了国内外冠心病危险预警模型的发展趋势、机器学习算法辅助诊断冠心病的应用状况。依托国家自然科学基金面上项目——基于心脏电-机械活动变异性的冠心病分布熵特征研究的资助,参与建立冠心病患者电子病历大数据集。系统科学的研究集成学习算法模型的建立流程、算法编程实现,为早期筛查诊断冠心病个体提供了一种新的算法实现途径和分析思路,本文所做主要工作如下:(1)参与建立适用于山东地区的冠心病患者电子病历医疗数据集。基于前期研究的冠心病患病危险因素,结合心内科临床专家的实践经验和建议,在济南千佛山医院实地采集受检者心电、心音、脉搏波等波形数据,整合患者基本信息、临床症状、生理生化指标等数据资料。(2)提出了适用于冠心病早期筛查诊断的异质集成学习算法模型Stacked1。基于冠心病危险因素临床数据集,通过与传统机器学习算法的比较,获得了准确性、敏感性、特异性分别为93.92%、96.40%、85.71%的结果。用SMOTE算法对正常人样本过采样匹配冠心病组样本数量,构建异质集成学习算法Stacked3,获得了准确性、敏感性、特异性分别为96.28%、97.81%、94.65%的结果。(3)通过对冠心病危险因素数据集做统计学分析,找到具有显著性差异的特征。同时,运用三种同质集成学习算法随机森林、梯度提升树、极度提升树计算数据集中特征的重要性评分,以高血压的重要性评分作为基线评分,分别筛选出了共计16、22、18个特征。在两种方法中高血压、年龄、葡萄糖、高密度脂蛋白、甘油三酯等特征为共同特征,是冠心病患病常见的危险因素。