论文部分内容阅读
随着医疗信息化的普及,大型医院以及卫生机构产生了大量的电子医疗记录数据。在这些海量的数据背后蕴含着大量重要的信息,这些信息对于疾病的深层认识、整体健康水平的提高,以及医疗信息领域的研究都有着积极的意义。本文从病人相似性度量、疾病关联分析和疾病趋势预测三个方面开展研究。针对病人相似性度量,文中提出了一种半监督学习算法。我们称该算法为Pairwise算法。Pairwise算法选择真实医疗记录作为训练数据,学习得到病人相似性的度量准则。考虑到现有的监督学习算法难以精确地构建标记方式,我们采用半监督学习,在训练数据中选择性加入少量精确的标记数据。我们用比较两对病人之间相似度大小的方式标记这些数据,并且称这些标记的数据为成对(Pairwise)的监督信息。本文通过对比实验证明了Pairwise算法在判定病人相似性的准确性方面以及合并病人群体的准确性提高幅度方面均优于现有的Local Supervised Metric Learning(LSML)算法。针对疾病关联分析,文中应用coupled Latent Dirichlet Allocation模型对电子医疗记录中的疾病进行聚类。本文中我们将该模型简记为cLDA模型。cLDA模型是耦合的LDA模型,不仅关注患病的种类,同样考虑患病时间。本文从三方面对实验结果进行说明。1).文中说明了疾病种类的聚类结果具有医学可解释性。2).时间模式和季节分布具有一致性。通过计算不同时间模式下疾病发病率的熵,本文有效证明了cLDA模型应用在疾病聚类方面可以得到准确的季节性发病率特征。3).通过和传统LDA模型实验结果的对比,本文证明了cLDA的准确性高于LDA。针对疾病趋势预测,在多维Hawkes模型的基础上,我们提出了一种改进的多维Hawkes模型。本文中我们称该模型为KLIPI模型。KLIPI模型是基于核函数学习的多维Hawkes模型,并且加入了反映病人体质的体质因子。根据KLIPI模型的实验结果,我们可以得到疾病的自然发病率,也可以获得病史中所有疾病对于将来可能患病的触发机制。本文通过实验结果证明了引入个人体质因子和高斯核函数学习均可以提高模型的预测准确性。同时,通过对比Markov模型的预测结果,本文证明了当时间链较长时,KLIPI模型的预测准确性更高。