论文部分内容阅读
电子病历检索是信息检索领域中的重要内容。当前网页文本检索技术日臻成熟,电子病历文本的语义检索也随之不断进步。然而,电子病历检索与网页、文献等文本检索有一个很大的不同,电子病历检索的目标不是以一个单独的病历文档为单位,而是以包含一名患者跨时间的所有病历的集合为单位。医学中事件发生的时间先后顺序是非常重要的因素,因此,如何利用电子病历的时序信息是电子病历检索中的重要问题。目前,电子病历检索采用传统的检索模型,主要依据查询与文档之间的相似度来排序。因为查询的简短性,不含有时序信息,因此电子病历检索中的时序信息并未得到充分的利用。另一方面,对电子病历中时序信息的表示主要集中于对表示时间先后顺序的逻辑词或短语的识别及抽取。该方法以文本为载体表示事件时序逻辑关系,使其对时序信息的利用有一定局限性。因此,找到一种便于计算的表示时序信息的方法是电子病历检索中亟待解决的问题。为了更好的在电子病历检索中利用时序信息,本文对电子病历时序信息的表示和量化进行了系统深入的研究。本文首先针对电子病历集合中病历生成时间先后顺序的重要性和时间分布的不规律性,结合不同的应用场景提出了三种对时序信息的表示方法,分别是静态的时间分布表示、动态的时序向量表示和嵌入式时序语义表示。其次,在三种表示框架之上,本文从静态/动态、显式/嵌入式的角度提出了三种与表示方法对应的时序语义相似度。特别的,在动态方法中,本文首次提出将一名患者的电子病历集合作为时间序列建模的思想,提出了一种可以将时序信息和语义信息同时建模的时序向量空间模型,并允许动态的对电子病历序列进行匹配和相似度计算。在嵌入式方法中,提出了一种适用于电子病历检索的循环神经网络,学习电子病历中潜在的时序语义模式,并用向量表示出来。最后,为了将时序语义相似度融合进当前检索模型,本文提出一种基于聚类的方法,将时序语义相似度与查询和文档之间的相关度结合起来作为排序依据。本文提出了便于计算的时序信息表示方法,使得在电子病历检索中时序相似度的计算成为可能,并提出了三种电子病历之间的时序语义相似度。本文在国际权威文本检索会议(Text Retrieval Conference,TREC)医疗评测提供的实际数据集上进行了实验,并与经典检索模型和当前先进的方法进行比较,相比于经典模型性能有显著提升,相比于当前先进方法性能有明显优势。