论文部分内容阅读
健康体检不仅是跟踪群体健康状况的重要手段,也是早期发现疾病的重要措施之一。把被体检人的体检资料进行数字化归档管理,利用一定的数据挖掘算法从大量的体检资料中发现被体检人在病因与疾病之间所存在的潜在关系,以早期发现、早期诊断、早期治疗疾病,从而达到预防保健和养生的目的。因此,探讨数据挖掘在当今医学领域中的应用现状和发展趋势,把数据挖掘技术应用于健康体检信息的分析、统计、分类以及疾病预测,有着重要的价值和意义。
人体是一个十分复杂的有机体,各个器官组织是相互作用、相互协调工作的。人体发生某种器质性病变时,单一的生理指标有时不足以反映人体的健康状况,而对于其相关的多个生理信息指标进行融合分析可以对疾病做出更加及时、准确的诊断。医生凭借经验对多种生理信息指标进行分析时,不可避免地带有主观性,而建立一种基于多生理信息融合的医疗诊断模型可以帮助医生做出更加符合客观实际的诊断。
支持向量机是基于统计学习理论的新一代机器学习技术。由于使用结构风险最小化原则代替最小化原则,使它能较好地处理小样本情况下的学习问题。又由于采用了核函数思想,使它能把非线性问题转化为线性问题来解决并降低了复杂度。目前,支持向量机已经成为国际上机器学习领域新的研究热点,在医学领域中的应用与研究更是方兴未艾。
本文在分析阐述数据挖掘算法和信息融合技术的基础上,研究了支持向量机在健康体检系统中应用的关键技术,并以心脏病诊断为原型,做了一些深入的研究和尝试。主要从事了以下几方面的研究:
1.研究了用于建立诊断模型的多生理信息融合方法,探讨了BAYES判别法,BP神经网络以及支持向量机的原理及其应用。
2.针对生理信息多维性和非线性可分性等特点,本文主要讨论了采用支持向量机作为融合多生理信息的方法。文章系统地介绍了支持向量机和其理论基础——统计学习理论。详细地探讨了支持向量机的三种专用求解方法:选块算法、分解算法以及最常用的序列最小最优化算法,还研究了这三种算法的评价准则。并从支持向量机的几何原理出发提出了一种基于支持向量机的对等增量学习算法,该算法考虑了违背KKT条件的样本和距离被误分样本点最近的n个原训练集样本,这些样本在增量学习后可能成为支持向量,从而在及时淘汰对后继分类贡献不大的样本的同时,保留了含有重要信息的样本。
3.从生理机理的角度介绍了用于融合的四种生理信息:心电、血压、脉搏和血氧,并对这四种生理信息进行了特征提取分析和预处理。
4.利用可利夫兰诊疗基金所提供的有关心脏病诊断的生理样本数据,用java语言实现了基于支持向量机的多生理信息诊断模型的建立,取得了较高准确率。
论文对健康体检数据进行了分析,对特征的筛选方法进行了探讨。实验结果表明,利用本文提出的基于支持向量机的增量学习算法所建立的诊断模型取得了较好的效果,并在一定程度上证明了健康体检诊断模型的实际应用价值和广泛研究的意义,为实现数据挖掘技术在健康体检中的应用开辟了新的思路和途径。