论文部分内容阅读
电子病历(Electronic Medical Record,EMR)是使用计算机记录病人治疗情况的一种形式,它记录了病人所有的诊断治疗信息,比如现病史、既往史等,这些信息具有极高的医学价值。随着人工智能、自然语言处理技术的成熟落地和成功应用,各个领域开始借助这些技术在不断的更新和进步,如,在医学领域,使用EMR辅助医生决策,提高疾病诊断性能已经成为了至关重要的任务。但是,之前的工作仅仅使用卷积神经网络(Convolutional Neural Networks,CNN)提取EMR的特征是有限的并且仅使用深度学习方法的疾病诊断模型缺乏先验知识。为了解决先前工作中的问题以及考虑到词本身蕴含的丰富语义信息,本文在基于CNN的疾病诊断模型的基础上融合上下文信息、疾病的外部临床信息以及丰富语义信息。这样不但可以提高诊断的准确率,还可以解决辅助诊断方面的难题。本文主要包括以下三个方面的创新工作:
第一个创新点是在CNN提取的局部信息的基础上,融合上下文信息:CNN虽然在特征提取方面有着很强的能力,但它局限在只能获取部分邻近单词之间的局部信息,而不能对EMR文本时序信息进行建模学习。本文为了学习到EMR文本的时序语义信息,使用了时序性的循环神经网络进行序列建模,并采用从不同侧重点学习EMR表示的组合策略融合上下文信息和局部信息。实验结果证明,将上下文信息和局部信息融合学习是非常有效果的,可以明显提高疾病诊断的性能。
第二个创新点是在融合上下文信息的疾病诊断模型中融合疾病的外部临床信息,增加疾病诊断的可解释性:医生在根据病人的EMR诊疗过程中会参考相关疾病的临床表现。疾病的临床信息代表着医生在多年诊疗过程中积累的临床经验,可以增强疾病诊断这类高风险模式的可解释性,将外部临床信息融合到深度学习模型中,可以直观的体现医生的诊断模式,增加了人类参与到深度学习的过程。所以,本文在融合了上下文信息的疾病诊断模型的基础上进一步融合相关疾病的外部临床信息。本文分别采用了基于向量相似度、支持向量机(Support Vector Machine,SVM)和注意力机制的方法融合疾病的外部临床信息。由于前两种方法存在错误传播的问题,所以本文提出注意力机制的方法来减少错误传播。实验结果表明,融合疾病的外部临床信息对疾病诊断预测起着正向促进作用,而且实验结果也证明了使用注意力机制融合疾病的外部临床信息能够减少错误传播。
第三个创新点是在融合前两种信息的基础上融合EMR文本的丰富语义信息:一方面,在不同EMR中,相同的字或者词在不同的上下文语境中可能表示不同的含义,需要考虑一词多义的情况,还需要体现词的句法和语义。因此为了获取更好的EMR向量表示,本文考虑使用基于ALBERT语言模型预训练字向量提高疾病诊断准确率。另一方面,本文考虑到循环神经网络在对长文本序列建模时会丢失信息,然而Transformer在对EMR文本进行编码时忽略了字的距离,而是同时关注长文本序列中所有的字的信息。这样可以弥补LSTM在学习长文本过程中信息的丢失,因此本文引入Transformer对EMR文本进行编码。实验结果证明,在模型中融合词向量中包含的丰富信息以及Transformer提取的长文本信息可以有效的提高模型性能。
第一个创新点是在CNN提取的局部信息的基础上,融合上下文信息:CNN虽然在特征提取方面有着很强的能力,但它局限在只能获取部分邻近单词之间的局部信息,而不能对EMR文本时序信息进行建模学习。本文为了学习到EMR文本的时序语义信息,使用了时序性的循环神经网络进行序列建模,并采用从不同侧重点学习EMR表示的组合策略融合上下文信息和局部信息。实验结果证明,将上下文信息和局部信息融合学习是非常有效果的,可以明显提高疾病诊断的性能。
第二个创新点是在融合上下文信息的疾病诊断模型中融合疾病的外部临床信息,增加疾病诊断的可解释性:医生在根据病人的EMR诊疗过程中会参考相关疾病的临床表现。疾病的临床信息代表着医生在多年诊疗过程中积累的临床经验,可以增强疾病诊断这类高风险模式的可解释性,将外部临床信息融合到深度学习模型中,可以直观的体现医生的诊断模式,增加了人类参与到深度学习的过程。所以,本文在融合了上下文信息的疾病诊断模型的基础上进一步融合相关疾病的外部临床信息。本文分别采用了基于向量相似度、支持向量机(Support Vector Machine,SVM)和注意力机制的方法融合疾病的外部临床信息。由于前两种方法存在错误传播的问题,所以本文提出注意力机制的方法来减少错误传播。实验结果表明,融合疾病的外部临床信息对疾病诊断预测起着正向促进作用,而且实验结果也证明了使用注意力机制融合疾病的外部临床信息能够减少错误传播。
第三个创新点是在融合前两种信息的基础上融合EMR文本的丰富语义信息:一方面,在不同EMR中,相同的字或者词在不同的上下文语境中可能表示不同的含义,需要考虑一词多义的情况,还需要体现词的句法和语义。因此为了获取更好的EMR向量表示,本文考虑使用基于ALBERT语言模型预训练字向量提高疾病诊断准确率。另一方面,本文考虑到循环神经网络在对长文本序列建模时会丢失信息,然而Transformer在对EMR文本进行编码时忽略了字的距离,而是同时关注长文本序列中所有的字的信息。这样可以弥补LSTM在学习长文本过程中信息的丢失,因此本文引入Transformer对EMR文本进行编码。实验结果证明,在模型中融合词向量中包含的丰富信息以及Transformer提取的长文本信息可以有效的提高模型性能。