论文部分内容阅读
重症监护室(Intensive Care Unit,ICU)一直是医学界关注的焦点。准确评估危重病人病情的严重程度并采取必要的措施,在住院治疗中发挥着重要的作用。越来越多的研究人员致力于ICU患者的死亡率预测研究。然而在医疗诊断过程中,由于检查缺失、填写遗漏等原因,常常造成医疗记录的时间序列中数值的缺失。时间序列中的缺失值若不能合理地填充,将会严重损害死亡率预测模型的性能。如何对缺失值进行有效地填充,并以此评估死亡率,已成为医疗大数据领域一个亟待解决的重要问题。若以在填充缺失值的同时预测样本类别标签为目标,传统的缺失值插补模型和分类模型的管道模式显然不能满足我们的需求。近年来,深度学习模型在计算机视觉,自然语言处理和语音识别等方面取得了巨大成功。随着医疗数据规模迅速增长,深度学习也被越来越多的用于医疗领域。基于循环神经网络进行缺失值插补以及死亡率预测的方法相继被研究员们提出。但此类方法仍存在一些共同的缺点,首先,没有深入挖掘缺失模式的特征以提取有效信息,其次,没有将不同模块插补以及死亡率预测问题有效地结合,形成共同学习框架。综上,为解决医疗时序数据的缺失值填充和死亡率预测问题,本文首先总结与评述现有方法,然后基于循环神经网络,提出了两种改进的深度模型,主要特征如下:1.引入四种缺失模式表示,遮蔽、时间间隔、突发性、累积缺失率,并将其有效地结合到深度学习模型中。从而在捕获时间序列中长期依赖的同时,利用缺失模式进行更精确的预测。2.设计了一种新颖的双向多任务循环神经网络架构,以ICU中同一时间序列的缺失值插补和死亡率预测为主任务,并将前者划分为四个子任务。利用主任务间、子任务间以及主任务与子任务间相关性进行联合学习,子任务同时基于时序数据进行顺序、逆序学习,从而提高模型整体性能。模型最终通过综合主任务和子任务信息,完成缺失值插补与死亡率预测。3.提出了一个面向多任务模型的损失函数,将各主任务及相关子任务高效结合。将插补问题中基于时间信息的插补、基于特征信息的插补、顺序插补、逆序插补的四个子任务以及死亡率预测问题通过一致性损失、插补模式、可调权重等方法进行联合学习。4.我们在ICU真实数据集MIMIC III上,提取以ICD-9规则划分的四种疾病数据对模型进行评估,实验结果表明,本文提出的两个模型与基线模型相比,在缺失值插补和死亡率预测任务上均取得了最优的性能。模型可处理具有多个不规则异常值的时间序列数据,插补质量也可以得到有效保证。因此我们的模型适用于包含不规则采样、丢失数据、噪声数据的ICU应用,并可以很好的拟合医疗时序数据。