医疗数据挖掘在疾病早期预警中的关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:aiyang1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医院信息系统(HospitalInformationSystem,HIS)的发展,临床数据库已经积累了大量的关于患者的医疗诊断的信息。如何发掘数据背后的关系模式,以提供新的医学知识,为患者提供更为个人的,及时的预警和治疗得到了越来越多的关注。因此,需要开发和应用新的医疗数据挖掘方法来发现这些隐藏的知识。  本文针对医学数据挖掘的一些关键点进行了研究,尤其是在疾病早期预警方面。早期预警系统的目标是确定临床恶化的迹象,并提供严重临床事件预警。由于医疗数据往往在高维空间里,充分描述数据所需的空间规模是指数级增长的,计算量可以大到不切实际而且数据点很稀疏无法建模。为了解决这些问题,我们提出了核密度逻辑回归混合模型,监督度量学习等算法对医疗数据进行处理。最后,我们搭建了一个双层预警系统:该系统的第一层从现有的临床电子病历数据库中自动识别有恶化风险的患者。第二层通过无线传感器采集高危患者的实时生命体征数据并进行危险筛查。我们采用数据挖掘技术这两个层面上分析数据,给予病人的实时分析结果。论文的主要工作及贡献如下:  1.提出了一种基于密度的逻辑回归(DLR)分类模型以解决临床数据挖掘算法中的逻辑回归中非线性分类的问题。其主要思想是根据Nadarays-Watson密度估计将训练数据映射到特定的特征空间,然后组建优化模型优化特征权重以及Nadarays-Watson密度估计算法的宽度。其主要优点在于:它不仅优于标准的逻辑回归,而且优于基于RBF内核的核逻辑回归(KLR)。特别是与核逻辑回归分析(KLR)和支持向量机(SVM)相比,该方法不仅达到更好的分类精度,而且有更好的时间效率。该方法的另一个显著优点是,它可以很自然地扩展到数值类型和分类型混合的数据集中。除此之外,该方法在医疗数据挖掘中有模型可解释的优点,这恰恰是其它算法,如核逻辑回归分析(KLR)和支持向量机(SVM)所不具备的。  2.提出了一种监督度量学习算法–基于内核密度的度量学习算法(KernelDensityMetricLearning(KDML))以解决临床数据挖掘中数据特征过多引起的模型过拟合问题。该算法通用性强,可以提供非线性的,基于概率的距离量度。通过基于内核概率密度估计,KDML构建了一个从原始空间至目标特征空间的直接非线性映射。KDML内部嵌入的非线性映射能够解决线性度量学习在数据集上分类错误的问题。同时,该算法解决了当特征分布不均时,欧几里得距离在原始空间上的量度导致k近邻分类失效的问题。除此之外,算法可以实现与现有的度量学习算法结合。我们同时提出了一种综合的优化算法,来优化马氏矩阵和非线性映射中的超参数。通过在数据集上的实验证明KDML能够显著提高现有度量算法在k近邻分类中的分类精度。  3.提出了一种新的监督学习算法-快速通量判别算法(FastFluxDiscriminant,FFD),来解决大尺度非线性分类问题。算法提出了一个新的子模优化框架,通过分解整个特征空间的核密度估计函数,将原始高维数据转化至低维子空间。子空间的特征将被转换,并在新的特征空间进行线性建模。与其他基于核算法非线性模型不同,由于原始空间的权重系数可知,FFD模型具有可解释性的优点,同时通过降维,使得算法的训练和测试时间大大缩短。在实际数据集上的实验结果证明,该模型在保持高精度的分类结果的基础上,具有稀疏性,可解释性和多尺度性等优点。  4.提出了一个应用在病房中的早期预警系统(EarlyWarningSystem),为临床病人提供早期预警,从而在病人病情进一步恶化之前为医生提供早期介入的机会。通过引入Bucketing技术来捕捉病人重要体征的变化,并填补病人缺失的数据,使得数据可以应用在实际的模型中。同时,我们结合逻辑回归,BiasedBucketBagging(解决过拟合为题),探索性下采样(解决类间不均衡问题)等算法完成系统。此外,在实时预测系统中,我们引入通过指数移动平均平滑初级预测结果,来较少数据波动对模型输出的影响。  5.设计了无线医疗监控系统-临床监测无线传感器网络,能够获得病人的实时医疗数据时间序列。该系统针对无线传感器网络在普通病房布置运用的可能性进行了深入的临床实验。基于802.15.4的无线Mesh网络,TelosB硬件平台,针对病人流动性大,医疗无线传感器网络拓扑结构多变性的特点,通过引入动态中继协议(DRAP),收集树协议(CTP)来解决节点数据传输和能量限制的问题。在医院病房中的实验证明,系统提供了足够的时间分辨率以支持临床突发事件的监测,实现了利用无线传感器网络持续对病人监护的预期目标。在此基础上,我们提出了一种针对一般的病情恶化的综合数据挖掘算法。通过提取一阶,二阶时间序列特征,去趋势波动分析(DetrendedFluctuationAnalysis(DFA)),频谱分析,近似熵(ApproximativeEntropy(ApEn)),时间序列交叉相关性分析,整合得到时间序列的特征集。然后,通过引入一系列数据挖掘方法来进行时间序列分类,其中包括前向特征选择,线性和非线性分类算法等。最终,我们将算法应用在2001年至2008年不同重症监护病房病人的数据上,结果显示文中提出的综合数据挖掘算法能够显著提高临床预警的可靠性。
其他文献
近年来,随着海上风电场的发展,风电维护船已成为迫切需求以及研究的热点。本文根据风电场的使用要求以及分析双体船的船型特点,选取双体船型作为风电维护船船型。根据运维船
数学与其他学科一样,也有其独特的文化价值.教师将数学文化渗透到小学数学课堂中,可使学生在学习数学的过程中接受数学文化的熏陶,并产生相应的文化共鸣,体会和察觉数学文化
太阳能光伏技术经过几十年的发展,已经在新能源领域确立了其重要地位,大力发展太阳能光伏发电已成为人类解决未来能源问题的重要途径。多结太阳能电池以其高的光电转化效率(28%以
学位
汽车道路试验数据采集与分析系统,是汽车整车试验的重要技术装备。通过测量汽车行驶过程中的车轮载荷、车速、踏板力、车轮转速、车身姿态、质心轨迹等运动参数,对汽车整车动
前期的大量试验探究表明泡沫铜可以强化热管的换热性能,但是影响热管换热性能的因素很多,对于泡沫铜强化热管换热的解释大多是宏观解释,本文旨在研究不同构造参数泡沫铜在不
分布式测控系统由于其在民用和军用方面的广泛应用,受到了越来越多的重视。与此同时,应用于测试系统的数采设备性能也得到了迅速的提高,因此导致了数据传输量成倍地增加,现有
空间物体的位姿是反映物体的重要参数,随着空间物体位姿测量需求的不断提升,空间物体的位姿测量越来越受到人们的重视,广泛应用在工业、军事、大型装备制造、航空航天等领域,
近年来,随着世界经济的发展,航运业在国际贸易中的重要地位日益突出,在我国也得到了快速的发展,同时也为我国国民生产总值做出了巨大贡献。目前,我国已建设成为世界一流的航
经济发展形势下,企业之间所面临的竞争也变得越来越激烈.对于生产企业来说,企业的生产和经营都离不开计量管理,通过计量管理,可以保证生产企业的产品质量和控制产品的生产成