论文部分内容阅读
随着医院信息系统(HospitalInformationSystem,HIS)的发展,临床数据库已经积累了大量的关于患者的医疗诊断的信息。如何发掘数据背后的关系模式,以提供新的医学知识,为患者提供更为个人的,及时的预警和治疗得到了越来越多的关注。因此,需要开发和应用新的医疗数据挖掘方法来发现这些隐藏的知识。 本文针对医学数据挖掘的一些关键点进行了研究,尤其是在疾病早期预警方面。早期预警系统的目标是确定临床恶化的迹象,并提供严重临床事件预警。由于医疗数据往往在高维空间里,充分描述数据所需的空间规模是指数级增长的,计算量可以大到不切实际而且数据点很稀疏无法建模。为了解决这些问题,我们提出了核密度逻辑回归混合模型,监督度量学习等算法对医疗数据进行处理。最后,我们搭建了一个双层预警系统:该系统的第一层从现有的临床电子病历数据库中自动识别有恶化风险的患者。第二层通过无线传感器采集高危患者的实时生命体征数据并进行危险筛查。我们采用数据挖掘技术这两个层面上分析数据,给予病人的实时分析结果。论文的主要工作及贡献如下: 1.提出了一种基于密度的逻辑回归(DLR)分类模型以解决临床数据挖掘算法中的逻辑回归中非线性分类的问题。其主要思想是根据Nadarays-Watson密度估计将训练数据映射到特定的特征空间,然后组建优化模型优化特征权重以及Nadarays-Watson密度估计算法的宽度。其主要优点在于:它不仅优于标准的逻辑回归,而且优于基于RBF内核的核逻辑回归(KLR)。特别是与核逻辑回归分析(KLR)和支持向量机(SVM)相比,该方法不仅达到更好的分类精度,而且有更好的时间效率。该方法的另一个显著优点是,它可以很自然地扩展到数值类型和分类型混合的数据集中。除此之外,该方法在医疗数据挖掘中有模型可解释的优点,这恰恰是其它算法,如核逻辑回归分析(KLR)和支持向量机(SVM)所不具备的。 2.提出了一种监督度量学习算法–基于内核密度的度量学习算法(KernelDensityMetricLearning(KDML))以解决临床数据挖掘中数据特征过多引起的模型过拟合问题。该算法通用性强,可以提供非线性的,基于概率的距离量度。通过基于内核概率密度估计,KDML构建了一个从原始空间至目标特征空间的直接非线性映射。KDML内部嵌入的非线性映射能够解决线性度量学习在数据集上分类错误的问题。同时,该算法解决了当特征分布不均时,欧几里得距离在原始空间上的量度导致k近邻分类失效的问题。除此之外,算法可以实现与现有的度量学习算法结合。我们同时提出了一种综合的优化算法,来优化马氏矩阵和非线性映射中的超参数。通过在数据集上的实验证明KDML能够显著提高现有度量算法在k近邻分类中的分类精度。 3.提出了一种新的监督学习算法-快速通量判别算法(FastFluxDiscriminant,FFD),来解决大尺度非线性分类问题。算法提出了一个新的子模优化框架,通过分解整个特征空间的核密度估计函数,将原始高维数据转化至低维子空间。子空间的特征将被转换,并在新的特征空间进行线性建模。与其他基于核算法非线性模型不同,由于原始空间的权重系数可知,FFD模型具有可解释性的优点,同时通过降维,使得算法的训练和测试时间大大缩短。在实际数据集上的实验结果证明,该模型在保持高精度的分类结果的基础上,具有稀疏性,可解释性和多尺度性等优点。 4.提出了一个应用在病房中的早期预警系统(EarlyWarningSystem),为临床病人提供早期预警,从而在病人病情进一步恶化之前为医生提供早期介入的机会。通过引入Bucketing技术来捕捉病人重要体征的变化,并填补病人缺失的数据,使得数据可以应用在实际的模型中。同时,我们结合逻辑回归,BiasedBucketBagging(解决过拟合为题),探索性下采样(解决类间不均衡问题)等算法完成系统。此外,在实时预测系统中,我们引入通过指数移动平均平滑初级预测结果,来较少数据波动对模型输出的影响。 5.设计了无线医疗监控系统-临床监测无线传感器网络,能够获得病人的实时医疗数据时间序列。该系统针对无线传感器网络在普通病房布置运用的可能性进行了深入的临床实验。基于802.15.4的无线Mesh网络,TelosB硬件平台,针对病人流动性大,医疗无线传感器网络拓扑结构多变性的特点,通过引入动态中继协议(DRAP),收集树协议(CTP)来解决节点数据传输和能量限制的问题。在医院病房中的实验证明,系统提供了足够的时间分辨率以支持临床突发事件的监测,实现了利用无线传感器网络持续对病人监护的预期目标。在此基础上,我们提出了一种针对一般的病情恶化的综合数据挖掘算法。通过提取一阶,二阶时间序列特征,去趋势波动分析(DetrendedFluctuationAnalysis(DFA)),频谱分析,近似熵(ApproximativeEntropy(ApEn)),时间序列交叉相关性分析,整合得到时间序列的特征集。然后,通过引入一系列数据挖掘方法来进行时间序列分类,其中包括前向特征选择,线性和非线性分类算法等。最终,我们将算法应用在2001年至2008年不同重症监护病房病人的数据上,结果显示文中提出的综合数据挖掘算法能够显著提高临床预警的可靠性。