论文部分内容阅读
随着医疗可穿戴设备等智能科技设备地涌现和普及,医疗健康数据爆发性增长,人类不断重视自身的健康,从更智能化的角度关注自己的身体状况,却又不可避免被重大疾病所困扰。人工智能和大数据技术在医疗健康领域研究蓬勃发展,为海量健康数据的充分使用提供了新的思路和方法,更为人类享受更好的医疗健康服务和免受疾病困扰提供无限可能。癌症、心血管疾病等不仅对人类身体带来伤害,更是给心理蒙上沉重的阴影,故借助数据挖掘技术进行疾病早期诊断预防是十分必要的。因此,本文将基于医疗健康体检数据,提出基于余弦度量和大边界近邻度量LMNN算法的局部簇距离度量学习COS-SUBLMNN算法,提高分类器精度,并构造疾病早期筛查和高危人群识别模型,融合患者的诊断反馈,最终实现疾病诊断系统的设计。论文主要研究距离度量学习算法、癌症早期筛查模型、模型优化评估和疾病风险诊断系统。首先,融合余弦度量和LMNN提出能够改善分类器性能的COS-SUBLMNN算法。接着提出适用于医疗健康体检数据的预处理和特征选择方案。然后,以癌症早期筛查为应用场景,LMNN建立模型,并与传统数据挖掘算法对比,选择合适评价指标验证距离度量学习算法的优势性。最后,本文以COS-SUBLMNN距离度量学习算法为核心,根据模型效果反馈不断优化算法性能,最终实现疾病风险诊断系统,并以癌症和心血管疾病加以验证。论文设计并完成了基于距离度量学习算法的疾病风险诊断系统和验证了改进算法COS-SUBLMNN性能的优势性。验证了包含距离度量思想的支持向量机和距离度量学习算法LMNN对癌症的预测比RF和ANN表现更好。与KNN和LMNN算法对比,本文提出的COS-SUBLMNN算法在癌症和心血管疾病诊断中效果更好,实现了利用距离度量学习算法对重大疾病诊断和患病高危人群识别的目的。本文研究成果在医疗健康数据挖掘领域具有现实意义。