基于电子病历的疾病关联分析和预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:JK0803fengwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化的普及,大型医院以及卫生机构产生了大量的电子医疗记录数据。在这些海量的数据背后蕴含着大量重要的信息,这些信息对于疾病的深层认识、整体健康水平的提高,以及医疗信息领域的研究都有着积极的意义。本文从病人相似性度量、疾病关联分析和疾病趋势预测三个方面开展研究。针对病人相似性度量,文中提出了一种半监督学习算法。我们称该算法为Pairwise算法。Pairwise算法选择真实医疗记录作为训练数据,学习得到病人相似性的度量准则。考虑到现有的监督学习算法难以精确地构建标记方式,我们采用半监督学习,在训练数据中选择性加入少量精确的标记数据。我们用比较两对病人之间相似度大小的方式标记这些数据,并且称这些标记的数据为成对(Pairwise)的监督信息。本文通过对比实验证明了Pairwise算法在判定病人相似性的准确性方面以及合并病人群体的准确性提高幅度方面均优于现有的Local Supervised Metric Learning(LSML)算法。针对疾病关联分析,文中应用coupled Latent Dirichlet Allocation模型对电子医疗记录中的疾病进行聚类。本文中我们将该模型简记为cLDA模型。cLDA模型是耦合的LDA模型,不仅关注患病的种类,同样考虑患病时间。本文从三方面对实验结果进行说明。1).文中说明了疾病种类的聚类结果具有医学可解释性。2).时间模式和季节分布具有一致性。通过计算不同时间模式下疾病发病率的熵,本文有效证明了cLDA模型应用在疾病聚类方面可以得到准确的季节性发病率特征。3).通过和传统LDA模型实验结果的对比,本文证明了cLDA的准确性高于LDA。针对疾病趋势预测,在多维Hawkes模型的基础上,我们提出了一种改进的多维Hawkes模型。本文中我们称该模型为KLIPI模型。KLIPI模型是基于核函数学习的多维Hawkes模型,并且加入了反映病人体质的体质因子。根据KLIPI模型的实验结果,我们可以得到疾病的自然发病率,也可以获得病史中所有疾病对于将来可能患病的触发机制。本文通过实验结果证明了引入个人体质因子和高斯核函数学习均可以提高模型的预测准确性。同时,通过对比Markov模型的预测结果,本文证明了当时间链较长时,KLIPI模型的预测准确性更高。
其他文献
西汉和匈奴的关系较为复杂多变。本文按照汉武帝前期、中期、后期的历史顺序,概述了汉武帝和匈奴的和亲政策、图制匈奴、威震农奴、政治招抚等关系的变化历程。
本文从时间和经济两个方面解释石油可持续利用的内涵,从供给和需求两个角度分析实现我国石油可持续利用的具体路径,其中供给管理主要是指充分挖掘国内国外两种资源来扩大石油
长江上游严重的水土流失不仅使该地区的农业生产条件和整个生态环境不断恶化,同时,也使长江中下游地区的水患压力不断增加。陡坡垦殖是贵州省乌江流域地区水土流失严重的主要
退休后消费支出下降的现象与生命周期理论不符,被学术界称为"退休—消费之谜"。基于Becker理论,文章利用中国居民健康与营养调查(CHNS)及我国城市居民饮食消费与健康调查数据
锦西炼油化工总厂气体分馏装置丙烯损失较大,通过流程模拟分析,发现丙烯损失主要是由脱乙烷塔顶回流罐排空造成的。通过改造,将乙烷塔底压力由2.3MPa提高到优化值2.9MPa后,装置丙烯
绿色物流指在物流过程中抑制物流对环境造成危害的同时,实现对物流环境的净化,使物流资源得到充分利用。发展绿色物流有利于社会经济可持续发展,增强企业的社会责任感和竞争
布鲁氏杆菌病是一种传染性疫病,在牛羊的养殖过程中有很高的发病率,目前还没有有效的治疗方法。并且,该病还是一种人畜共患病,会对养殖人员的身体健康造成威胁。因此,要采取
信息时代的到来改变了传统档案信息活动的内容与形式,同时也带来了激烈的档案信息伦理冲突。本文从数字化背景下档案信息伦理冲突的表现入手,分析了冲突产生的原因,探讨了避
湖北省鹤峰县在联合国开发计划署的资助下,成功地通过社区林业进行了扶贫开发工作。经过3年的努力,取得以下经验:建立健全了项目组织机构和项目综合网络;注重培养农民自我脱