论文部分内容阅读
医学临床数据可视为患者在一次或多次住院过程中产生的一系列临床事件的集合,包括药物记录、疾病诊断记录、生理指标、化验结果、非文字记录(医学影像、心电图、录音等)、既往史、遗传史、诊疗费用等,这些事件记录在电子病历中,其复杂性现已接近基因组规模,通过对多种临床事件的分析,研究者能够更加灵活地对患病风险进行预测建模,对于疾病的早期发现和治疗具有重要的意义。然而,正是由于临床事件的复杂性和多样性,如何更好地利用临床事件对未来疾病进行诊断预测尤其具有挑战性。而医学概念是指药物记录、疾病诊断记录等蕴含丰富语义信息的临床事件,与血压、血糖测量值等数据不同,医学概念中隐含着大量语义关系,各种概念之间存在复杂的潜在联系,如何更好地进行医学概念的表示学习是准确把握患者信息的关键,对提高疾病预测精度尤为重要。目前,利用医学概念展开疾病诊断预测主要面临三个挑战:第一,医学概念表示问题,即如何有效利用医学概念隐含的语义信息。多数研究采用独热向量来对医学概念进行表示,使得输入矩阵高度稀疏,同时造成丰富语义的丢失。第二,临床事件时间依赖问题。时间信息对于患者病程发展尤为重要,相对早期事件,晚期事件更具价值。且临床事件之间的时间间隔不规则,导致难以采用传统模型进行分析。大部分方法对所有临床事件做等间隔处理,无法综合考虑患者长短期患病信息。第三,临床事件种类繁多,呈现异构形式,各种事件关系需要更好的融合。很多研究根据专家知识选取单一事件进行建模,未利用多种事件之间隐含的关系,仍需要进一步改善。针对上述问题,本文展开了医学概念表示与临床诊断预测两方面的研究,建立了基于深度时控图卷积的医学概念表示方法,解决语义损失、输入矩阵稀疏问题,充分利用时间信息、语义信息及事件关系,对多种疾病临床诊断进行预测。本文的主要创新成果如下:(1)针对语义损失、矩阵稀疏问题,开发了一种医学概念细粒度表示形式。捕获医学概念中隐含的字符级语义信息,建立包含稀疏性约束的嵌入式表达。首先,对医学概念进行细粒度分割,分析概念内部结构,捕获字符级医学概念信息。其次,考虑医学语义相似度对词向量进行字符级共享表示,保留丰富的医学专业语义信息。再次,在公开数据集上进行实验,证明所述医学概念表示形式拥有较好的聚类效果,能够为后续预测工作建立良好的基础。(2)提出一种可对不同时间间隔进行建模的长短时记忆递归网络,综合考虑长短时事件对疾病诊断进行预测。首先,提取患者历史临床事件,根据时间顺序构建完整的患者病程向量。其次,在长短时记忆网络结构中添加时间控制单元,对不同时间间隔事件进行加权建模,使得模型拥有处理变长间隔事件的能力,消除了临床事件对时间戳的强烈依赖,能够综合考虑病人长短期患病事件。再次,在真实数据集上进行了大量对比实验,结果表明,所述可变间隔结构能够显著提高预测模型精度,具有很强的竞争力。(3)构建了面向多维事件的临床预测模型——深度时控图卷积模型,提高临床诊断的准确性。首先,综合考虑多种临床事件,针对事件多维、异构的特征,面向各类事件关系生成异构图;其次,对所构建的多元异构生成图进行卷积操作,建立融合各类事件关系的表达。再次,将时间控制单元与图神经结构结合,构建深度时控图卷积模型,从而处理带有时间信息的多维数据。本文在大型多参数重症监护公共数据库MIMICIII数据集上进行广泛实验,并客观全面评价模型性能。结果证明,深度时控图卷积模型在临床事件预测领域中实现了更高的精度,对医学信息研究具有重要意义。