面向中文电子病历的多信息融合疾病诊断方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:hdydrd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历(Electronic Medical Record,EMR)是使用计算机记录病人治疗情况的一种形式,它记录了病人所有的诊断治疗信息,比如现病史、既往史等,这些信息具有极高的医学价值。随着人工智能、自然语言处理技术的成熟落地和成功应用,各个领域开始借助这些技术在不断的更新和进步,如,在医学领域,使用EMR辅助医生决策,提高疾病诊断性能已经成为了至关重要的任务。但是,之前的工作仅仅使用卷积神经网络(Convolutional Neural Networks,CNN)提取EMR的特征是有限的并且仅使用深度学习方法的疾病诊断模型缺乏先验知识。为了解决先前工作中的问题以及考虑到词本身蕴含的丰富语义信息,本文在基于CNN的疾病诊断模型的基础上融合上下文信息、疾病的外部临床信息以及丰富语义信息。这样不但可以提高诊断的准确率,还可以解决辅助诊断方面的难题。本文主要包括以下三个方面的创新工作:
  第一个创新点是在CNN提取的局部信息的基础上,融合上下文信息:CNN虽然在特征提取方面有着很强的能力,但它局限在只能获取部分邻近单词之间的局部信息,而不能对EMR文本时序信息进行建模学习。本文为了学习到EMR文本的时序语义信息,使用了时序性的循环神经网络进行序列建模,并采用从不同侧重点学习EMR表示的组合策略融合上下文信息和局部信息。实验结果证明,将上下文信息和局部信息融合学习是非常有效果的,可以明显提高疾病诊断的性能。
  第二个创新点是在融合上下文信息的疾病诊断模型中融合疾病的外部临床信息,增加疾病诊断的可解释性:医生在根据病人的EMR诊疗过程中会参考相关疾病的临床表现。疾病的临床信息代表着医生在多年诊疗过程中积累的临床经验,可以增强疾病诊断这类高风险模式的可解释性,将外部临床信息融合到深度学习模型中,可以直观的体现医生的诊断模式,增加了人类参与到深度学习的过程。所以,本文在融合了上下文信息的疾病诊断模型的基础上进一步融合相关疾病的外部临床信息。本文分别采用了基于向量相似度、支持向量机(Support Vector Machine,SVM)和注意力机制的方法融合疾病的外部临床信息。由于前两种方法存在错误传播的问题,所以本文提出注意力机制的方法来减少错误传播。实验结果表明,融合疾病的外部临床信息对疾病诊断预测起着正向促进作用,而且实验结果也证明了使用注意力机制融合疾病的外部临床信息能够减少错误传播。
  第三个创新点是在融合前两种信息的基础上融合EMR文本的丰富语义信息:一方面,在不同EMR中,相同的字或者词在不同的上下文语境中可能表示不同的含义,需要考虑一词多义的情况,还需要体现词的句法和语义。因此为了获取更好的EMR向量表示,本文考虑使用基于ALBERT语言模型预训练字向量提高疾病诊断准确率。另一方面,本文考虑到循环神经网络在对长文本序列建模时会丢失信息,然而Transformer在对EMR文本进行编码时忽略了字的距离,而是同时关注长文本序列中所有的字的信息。这样可以弥补LSTM在学习长文本过程中信息的丢失,因此本文引入Transformer对EMR文本进行编码。实验结果证明,在模型中融合词向量中包含的丰富信息以及Transformer提取的长文本信息可以有效的提高模型性能。
其他文献
学位
近年来,深度学习越来越多地被应用到各个领域,计算机与其他学科之间的交叉程度越来越大,而分子生成就是其中一个重要的部分。分子空间异常庞大,而已知的分子在其中不过是很小的一部分。为了发现更多潜在可用的新分子,近年来研究人员尝试利用深度学习的方法生成新分子,提出了大量的分子生成模型。这些分子生成模型通常要求输入与输出类型相同,即若输入是字符串则输出也是相同意义的字符串,若输入是邻接矩阵则输出也是邻接矩阵
学位
随着各种基因检测技术的发展,人类获得的数据越来越多,但是其中与特定疾病相关的基因数量却很少,人类现有的能力还是不能发现人体致病机理的秘密,本文研究的内容就是充分利用有限的资源来挖掘出可能致病的基因。现有的算法对复杂疾病的致病基因的发现能力较弱,深度学习却能很好的预测它们。由于推荐算法与致病基因发现任务具有相似性,所以本研究进行了借鉴和学习。本论文主要有以下三部分工作内容,首先,从海量基因中选择候选
显著性目标检测是从一幅图像中检测出前景的轮廓,其在深度学习中具有广泛的用途,是很多计算机视觉任务的首要工作。由于越来有多的任务都需要依靠显著性目标检测来完成,最近几年这个任务成为了人工智能热门的研究方向。现有的方法在检测简单的场景时效果非常的好。然而,针对一些复杂场景,例如图像中包含不规则目标、多目标、小目标等场景,或者目标边界轮廓比较复杂等情况,现有的检测方法无法有效的处理这些问题。很多方法预测
随着计算机和互联网的飞快发展,百度、新浪、字节跳动和网易等互联网企业也快速发展起来。伴随着互联网企业的快速发展大量的数据喷涌而来,信息过载导致用户不能快速的筛选对自己有帮助的信息。为此,研究者们开始着力于开发推荐系统帮助用户进行决策。推荐算法包括传统推荐算法和基于深度学习的推荐算法。目前,传统的推荐算法和基于深度学习的推荐算法面临的挑战都是数据稀疏和冷启动。数据稀疏是由于用户项目之间的交互数据过少
学位
伴随着移动互联网和大数据的高速发展,互联网产生大量的数据,这些海量的数据在给我们带来丰富选择的同时,也给我们带来了信息过载的问题。推荐系统旨在根据用户和项目之间的交互历史来自动构架用户和项目的之间的联系。学术和工业界的研究表明,推荐系统能够有效解决信息过载问题,提升数据的利用率。然而传统的推荐算法受限于有限的附属信息和模型结构,无法实现理想的效果,而且非常容易受到数据稀疏的影响,尤其是冷启动问题。
学位
睡眠是一种复杂的生理活动过程,充足的睡眠时间和高质量的睡眠质量是人体生理健康和心理健康的必要条件。睡眠障碍严重影响人类健康和生活,将睡眠阶段准确的分类是检测和治疗睡眠障碍的关键,睡眠阶段分类也称之为睡眠分期。在睡眠分期领域,主流的深度学习方法在同一层次上仅仅使用了某种单一的关系归纳偏置,这会使得深度学习方法的特征提取方式不够完备并导致该方法的性能受到限制。本文使用平移不变性、时间不变性和分层处理等
学位
开发一种治疗疾病的新药是一种非常漫长和昂贵的过程,为已知药物确定新的疾病适应症,即药物重定位,有助于减少药物的研发成本。目前,大多预测药物相关疾病的方法都是综合利用与药物和疾病相关的数据。然而这些方法虽然聚焦在整合多种药物特征,并没有考虑到各种特征间的多样性。此外这些方法尽管利用了药物和疾病相关的各种数据,但是它们都是根据浅层模型提出的,很难挖掘出药物和疾病之间复杂的关联关系。这些不足将在一定程度
随着社会的进步,移动互联网已经涉及到各行各业,移动电商和基于位置的社交网络(LBSN,Location-Based Social Networks)也得到了迅猛的发展,如淘宝,京东,Facebook,Twitter,Foursquare,Gowalla,Yelp等。与此同时,诸如信息爆炸问题也日益受到人们的关注,如何从逐日爆炸性增长的互联网海量数据中提取出对用户有实际意义的信息,同时尽可能地过滤不
学位
由于户外环境的复杂多变,如雨雾天气、低光照、噪声等,图像采集设备收集到的图像常会受到不同程度的损坏。图像的退化不仅会降低可视化效果,而且会影响下游的目标识别等高级视觉任务。低质量图像恢复旨在从退化图像中恢复高质量图像信号,传统的图像恢复方法主要利用局部或非局部的图像特征,缺乏深层次的语义信息,限制了在复杂场景中的特征表示能力。近年来,基于卷积神经网络(CNN)的方法能够同时提取浅层和深层特征,在图