数据挖掘技术在健康体检系统中的应用与研究——SVM增量学习算法的研究与实现

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:wyf1233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
健康体检不仅是跟踪群体健康状况的重要手段,也是早期发现疾病的重要措施之一。把被体检人的体检资料进行数字化归档管理,利用一定的数据挖掘算法从大量的体检资料中发现被体检人在病因与疾病之间所存在的潜在关系,以早期发现、早期诊断、早期治疗疾病,从而达到预防保健和养生的目的。因此,探讨数据挖掘在当今医学领域中的应用现状和发展趋势,把数据挖掘技术应用于健康体检信息的分析、统计、分类以及疾病预测,有着重要的价值和意义。 人体是一个十分复杂的有机体,各个器官组织是相互作用、相互协调工作的。人体发生某种器质性病变时,单一的生理指标有时不足以反映人体的健康状况,而对于其相关的多个生理信息指标进行融合分析可以对疾病做出更加及时、准确的诊断。医生凭借经验对多种生理信息指标进行分析时,不可避免地带有主观性,而建立一种基于多生理信息融合的医疗诊断模型可以帮助医生做出更加符合客观实际的诊断。 支持向量机是基于统计学习理论的新一代机器学习技术。由于使用结构风险最小化原则代替最小化原则,使它能较好地处理小样本情况下的学习问题。又由于采用了核函数思想,使它能把非线性问题转化为线性问题来解决并降低了复杂度。目前,支持向量机已经成为国际上机器学习领域新的研究热点,在医学领域中的应用与研究更是方兴未艾。 本文在分析阐述数据挖掘算法和信息融合技术的基础上,研究了支持向量机在健康体检系统中应用的关键技术,并以心脏病诊断为原型,做了一些深入的研究和尝试。主要从事了以下几方面的研究: 1.研究了用于建立诊断模型的多生理信息融合方法,探讨了BAYES判别法,BP神经网络以及支持向量机的原理及其应用。 2.针对生理信息多维性和非线性可分性等特点,本文主要讨论了采用支持向量机作为融合多生理信息的方法。文章系统地介绍了支持向量机和其理论基础——统计学习理论。详细地探讨了支持向量机的三种专用求解方法:选块算法、分解算法以及最常用的序列最小最优化算法,还研究了这三种算法的评价准则。并从支持向量机的几何原理出发提出了一种基于支持向量机的对等增量学习算法,该算法考虑了违背KKT条件的样本和距离被误分样本点最近的n个原训练集样本,这些样本在增量学习后可能成为支持向量,从而在及时淘汰对后继分类贡献不大的样本的同时,保留了含有重要信息的样本。 3.从生理机理的角度介绍了用于融合的四种生理信息:心电、血压、脉搏和血氧,并对这四种生理信息进行了特征提取分析和预处理。 4.利用可利夫兰诊疗基金所提供的有关心脏病诊断的生理样本数据,用java语言实现了基于支持向量机的多生理信息诊断模型的建立,取得了较高准确率。 论文对健康体检数据进行了分析,对特征的筛选方法进行了探讨。实验结果表明,利用本文提出的基于支持向量机的增量学习算法所建立的诊断模型取得了较好的效果,并在一定程度上证明了健康体检诊断模型的实际应用价值和广泛研究的意义,为实现数据挖掘技术在健康体检中的应用开辟了新的思路和途径。
其他文献
随着空间数据库的快速增长和广泛使用,如何从空间数据中自动地发现空间知识变得越来越重要。空间co-location模式挖掘寻找给定空间属性之间的关联关系,是数据挖掘的主要研究方
分布式蜜网技术的提出为互联网安全威胁监测提供了一种有效方案:通过在互联网不同位置部署蜜网站点,采集恶意代码和黑客攻击在网络中产生的安全威胁数据,可供安全应急部门快速感
句法分析是自然语言处理中的重点和难点。组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。它是处于语句的分词
分类是数据挖掘领域中的重要研究方向,随着数据仓库和联机分析处理技术的发展,大量的数据被存储在数据仓库系统中,传统分类算法的不足逐渐显现出来,比如缺乏用户的导向和控制,不能
目前,业务流程执行语言BPEL作为描述web服务组装的语言已经被广泛接受。但是由于BPEL是用XML表示,自然语言描述其语义,缺乏形式化,很容易在设计中引入不易发觉的错误。对于企业来
滑坡是一种常见的地质灾害,常常会掩埋村庄、摧毁厂矿、破坏铁路和公路交通、堵塞江河、损坏农用和森林等,从而给人民生命财产和国家的经济建设都造成严重损失。而我国是一个滑
现代远程教育是将计算机网络及卫星数字通讯技术应用到教学领域的产物,具有资源共享、系统开放、时空自由和便于协作等优点。基于Internet的远程教育系统是现代远程教育的方向
组合数学具有悠久历史,可以追溯到人类文明的起源。过去半个多世纪,从计算机出现到它的普及、从传统的电话、电报到现代网络、移动通讯以及信息论、理论计算机科学等的建立都与
计算机、通信与网络技术的发展和普及,使信息处理的方式发生了根本性的转变,传统的集中处理方式转变为分布处理的方式。分布于不同地域、松散耦合、基于不同环境和平台的多个计
Jacobian猜想是代数几何的基本问题,也是未解决的著名猜想。2008年,Abhyankar在Journal of Algebra上发表三篇长篇论文,系统介绍了基于近似根理论的二维Jacobian猜想的研究方法,