电子健康记录缺失数据预测与填充方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:buyaodiua1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子健康记录(EHR)包含了患者的身体状况、疾病信息、免疫状况、住院记录等个人健康相关的信息。利用神经网络等深度学习方法从大量的EHR数据中挖掘医学规律有助于及早发现疾病并进行治疗。然而,由于数据记录不及时、数据测量条件有限等客观原因,常常导致EHR数据存在大量缺失数据项,极大限制了机器学习方法的应用,因此,必须寻找有效的方法处理缺失数据项。论文通过分析EHR数据和现有缺失数据预测方法的特点,提出了两种基于循环神经网络(RNN)的缺失数据预测方法,并对MIMIC-III数据集的缺失数据进行处理,然后基于填充后的数据集预测住院期间患者死亡率,以验证缺失数据处理方法的有效性。论文主要工作如下:(1)提出了一种基于长短时记忆网络(LSTM)的EHR缺失数据预测与填充方法。首先,从EHR数据中提取出病人生理数据字段,标记字段中的缺失数据项,同时标记带有缺失数据项的患者相应就诊数据,形成新的数据集。其次,基于新的数据集训练LSTM模型,然后使用训练后的模型预测缺失数据项,根据标记将预测值填入缺失位置以形成完整数据集。最后,采用平均绝对误差(MAE)方法和住院期间患者死亡率预测方法验证预测数据。实验结果显示,平均绝对误差方法中全部字段预测数据的MAE值降低到了0.44以下,验证了缺失数据预测值的准确性,同时住院期间患者死亡率预测方法中死亡率预测准确度达到了94.3%,验证了缺失数据预测值的有效性。(2)提出了一种结合注意力机制和双向长短时记忆网络(Attention-Bi LSTM)的EHR缺失数据预测与填充方法。对EHR数据的分析显示,一方面,病人的生理数据具有前后时序性,另一方面,某些生理数据的个别值会直接反映出病人疾病的严重程度。针对上述特点,改进现有的双向LSTM(Bi LSTM)的结构,在隐藏层引入注意力机制,构造结合注意力机制的双向长短时记忆网络,并采用其预测缺失数据,最后对缺失数据集进行填充补全。在MIMIC-III数据集的实验显示,该方法使全部字段的预测数据MAE值降低到0.33以下,同时住院期间患者死亡率预测方法中预测准确度进一步提高,达到95.1%。这表明该方法能更好的处理EHR缺失数据,使预测结果更加准确。
其他文献
废线路板作为电子废弃物中的主要组成部分,此中存在大量的有价金属。目前废线路板处理方法主要包括火法和湿法,火法工艺虽然可以高效回收金属,但能耗高,环境污染大。目前,湿
风电叶片是由玻璃纤维复合材料以及减轻重量的Balsa木和PVC泡沫板制作而成,也是风力发电机组中主要的承力结构。风电叶片长期受风力交变疲劳载荷,富含树脂区域易出现损伤,且
干燥是减少猕猴桃采后损失的一种重要的途径,开发高品质的猕猴桃干制产品对猕猴桃产业的发展会起到重要的促进作用。目前,工业上猕猴桃干燥采用的方法是渗透干燥和热风干燥,
基于混合气体在微通道中的流动特性,通过合理设置微通道中的流动驱动力可以在微通道内形成分子交换流现象。利用该特殊的流动现象,可以进行气体分离。一种新型气体分离器采用
随着社会经济的不断发展,人们对能源的巨大需求也随之而来。因此,探寻可以进行能源转化的材料或技术变得十分重要。热电材料是一种可以直接、可逆地将废热转化成电能的新能源
发展高性能疏松纳滤(NF)膜实现染料与无机盐高选择性分离一直学术界和工业界所面临的挑战。本文以聚醚砜(PES)和亲水性磺化聚砜(SPSf)为原料进行共混,以己二酸为致孔剂,采用非溶剂
智能材料是将自感知与自驱动特性相融合的新兴材料,集中体现了对生物行为的智能模仿。传统的纳米纤维通过功能化也正逐步向智能仿生方向发展。柔性驱动器作为智能器件的重要
国际条约中刑法规范的适用问题,无论在国内刑法还是在国际刑法中,都是讨论的热点。但是,这种讨论仅仅停留于国际条约在适用模式的优劣评判和简单的立法建议之上,而对于国际条
可逆变色涂料作为一种功能性涂料广泛应用于示温材料、设备温度安全警示、航天航空等领域,将其涂覆在金属、陶瓷、玻璃等底材上,可形成保护性、装饰性、功能性高的涂层。传统
随着人类社会的快速发展,能源危机和环境问题日益严峻。寻求高效、清洁的可再生能源迫在眉睫。电催化反应是能源存储与转换领域(如水分解、燃料电池、氮还原等)的核心步骤之一,