论文部分内容阅读
电子健康记录(EHR)包含了患者的身体状况、疾病信息、免疫状况、住院记录等个人健康相关的信息。利用神经网络等深度学习方法从大量的EHR数据中挖掘医学规律有助于及早发现疾病并进行治疗。然而,由于数据记录不及时、数据测量条件有限等客观原因,常常导致EHR数据存在大量缺失数据项,极大限制了机器学习方法的应用,因此,必须寻找有效的方法处理缺失数据项。论文通过分析EHR数据和现有缺失数据预测方法的特点,提出了两种基于循环神经网络(RNN)的缺失数据预测方法,并对MIMIC-III数据集的缺失数据进行处理,然后基于填充后的数据集预测住院期间患者死亡率,以验证缺失数据处理方法的有效性。论文主要工作如下:(1)提出了一种基于长短时记忆网络(LSTM)的EHR缺失数据预测与填充方法。首先,从EHR数据中提取出病人生理数据字段,标记字段中的缺失数据项,同时标记带有缺失数据项的患者相应就诊数据,形成新的数据集。其次,基于新的数据集训练LSTM模型,然后使用训练后的模型预测缺失数据项,根据标记将预测值填入缺失位置以形成完整数据集。最后,采用平均绝对误差(MAE)方法和住院期间患者死亡率预测方法验证预测数据。实验结果显示,平均绝对误差方法中全部字段预测数据的MAE值降低到了0.44以下,验证了缺失数据预测值的准确性,同时住院期间患者死亡率预测方法中死亡率预测准确度达到了94.3%,验证了缺失数据预测值的有效性。(2)提出了一种结合注意力机制和双向长短时记忆网络(Attention-Bi LSTM)的EHR缺失数据预测与填充方法。对EHR数据的分析显示,一方面,病人的生理数据具有前后时序性,另一方面,某些生理数据的个别值会直接反映出病人疾病的严重程度。针对上述特点,改进现有的双向LSTM(Bi LSTM)的结构,在隐藏层引入注意力机制,构造结合注意力机制的双向长短时记忆网络,并采用其预测缺失数据,最后对缺失数据集进行填充补全。在MIMIC-III数据集的实验显示,该方法使全部字段的预测数据MAE值降低到0.33以下,同时住院期间患者死亡率预测方法中预测准确度进一步提高,达到95.1%。这表明该方法能更好的处理EHR缺失数据,使预测结果更加准确。