论文部分内容阅读
主要不良心血管事件预测与评估是研究急性冠脉综合征等心血管疾病致病危险因素与疾病发病率、死亡率之间数量依存关系及规律的技术,被普遍认为是进行疾病防治的核心环节。预测结果能够为医生提供临床决策支持,辅助医生制定合理的治疗及护理方案,从而减小患者发生不良事件的几率;更能规范医疗流程,减少医疗开支。传统队列研究通过入组标准控制患者质量,采用少量精选风险因子构建模型,使用简单并已得到广泛的临床认可。但其存在如入组标准导致入组患者与实际临床环境不同;少量风险因子限制模型性能;难以纳入新的风险因子等不足。随着电子病历等医疗信息系统的快速发展,大量研究开始采用电子病历数据构建预测模型。相对于队列研究,该类模型没有严格的入组标准,数据反应真实临床环境;数据丰富,可用患者信息多;可纳入新的风险因子。尽管克服了队列研究的不足,但依然存在如1)电子病历数据尚未充分利用2)数据不准确值及缺失值导致模型不确定性大、预测结果不准确等问题。因此,本论文针对上述基于电子病历数据预测方法的不足,提出了一种基于电子病历数据挖掘的主要不良心血管事件预测方法。该方法主要由四部分组成:第一,在处理检查检验数据同时,使用自然语言处理技术从入院记录中提取患者特征,充分使用获取到的电子病历数据。第二,使用四种常用的机器学习算法,即支持向量机、随机森林、朴素贝叶斯及范数一逻辑回归,构建独立不良事件预测模型。第三,使用粗糙集理论计算各独立不良事件预测模型的权重值,来确定其在集成模型中所应发挥的作用。第四,采用Dempster-Shafer证据理论,将多个独立预测模型的输出结果和已得到广泛临床认可的队列研究模型GRACE相融合,从而得到本轮文提出的集成主要不良心血管事件预测模型。通过使用从医院收集到的2,930份急性冠脉综合征电子病历数据对本论文所提出的集成主要不良心血管事件预测方法进行评估。评估结果表明:1)使用自然语言处理技术深度挖掘非结构化电子病历数据能有效提高不良事件预测精度;2)使用Dempster-Shafer·证据理论构建的集成预测模型在与独立预测模型和其他集成模型对比时,取得了最佳的综合预测性能,有效减少了电子病历数据中不准确值及缺失值对模型预测性能产生的影响。