电子病历检索中时序语义相似度研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:liuyu890501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历检索是信息检索领域中的重要内容。当前网页文本检索技术日臻成熟,电子病历文本的语义检索也随之不断进步。然而,电子病历检索与网页、文献等文本检索有一个很大的不同,电子病历检索的目标不是以一个单独的病历文档为单位,而是以包含一名患者跨时间的所有病历的集合为单位。医学中事件发生的时间先后顺序是非常重要的因素,因此,如何利用电子病历的时序信息是电子病历检索中的重要问题。目前,电子病历检索采用传统的检索模型,主要依据查询与文档之间的相似度来排序。因为查询的简短性,不含有时序信息,因此电子病历检索中的时序信息并未得到充分的利用。另一方面,对电子病历中时序信息的表示主要集中于对表示时间先后顺序的逻辑词或短语的识别及抽取。该方法以文本为载体表示事件时序逻辑关系,使其对时序信息的利用有一定局限性。因此,找到一种便于计算的表示时序信息的方法是电子病历检索中亟待解决的问题。为了更好的在电子病历检索中利用时序信息,本文对电子病历时序信息的表示和量化进行了系统深入的研究。本文首先针对电子病历集合中病历生成时间先后顺序的重要性和时间分布的不规律性,结合不同的应用场景提出了三种对时序信息的表示方法,分别是静态的时间分布表示、动态的时序向量表示和嵌入式时序语义表示。其次,在三种表示框架之上,本文从静态/动态、显式/嵌入式的角度提出了三种与表示方法对应的时序语义相似度。特别的,在动态方法中,本文首次提出将一名患者的电子病历集合作为时间序列建模的思想,提出了一种可以将时序信息和语义信息同时建模的时序向量空间模型,并允许动态的对电子病历序列进行匹配和相似度计算。在嵌入式方法中,提出了一种适用于电子病历检索的循环神经网络,学习电子病历中潜在的时序语义模式,并用向量表示出来。最后,为了将时序语义相似度融合进当前检索模型,本文提出一种基于聚类的方法,将时序语义相似度与查询和文档之间的相关度结合起来作为排序依据。本文提出了便于计算的时序信息表示方法,使得在电子病历检索中时序相似度的计算成为可能,并提出了三种电子病历之间的时序语义相似度。本文在国际权威文本检索会议(Text Retrieval Conference,TREC)医疗评测提供的实际数据集上进行了实验,并与经典检索模型和当前先进的方法进行比较,相比于经典模型性能有显著提升,相比于当前先进方法性能有明显优势。
其他文献
在21世纪,制造业所面临的激烈市场竞争迫使数控系统朝着高精、高速、高效、智能网络化的方向发展。然而,传统数控系统的结构封闭,功能单一,开发周期长,成本高等弊端,已经成为制约制
加快推进社会主义新农村建设是改变城乡二元发展格局的重要举措,而农村公共服务建设又是新型农村社区建设的重要内容之一,必须予以足够重视。在我国公共服务供给机制的历史变
随着中国经济步入新常态,宏观经济增速明显放缓,其对制造业内部各行业产生了不同程度和不同时效的影响。运用FAVAR模型评估新常态形势下经济增速放缓冲击对中国制造业各细分
现阶段用户与用户、终端与大型数据中心之间通信量越来越大,传统网络架构很难满足网络通信效率和安全的高标准要求。基于传统架构的无线传感器网络(WirelessSensor Networks,WS
研究目的:1.基于“上调MDRl基因、诱导P-gp外向转运解除中枢抑制药物中毒”的机制研究,采用ATP酶活性测试法,考察待测药物对P-gpATP酶活性的影响,明确药物是否为P-gp底物,初步
当今社会,能源短缺以及环境污染两大问题已受到了世界各国的关注,绿色无污染的可再生能源是解决这两大问题的重要途径,因此在全世界得到了大规模的开发与应用。风能作为一种
20世纪70年代中期,“民间美术”一词开始被广泛延用,它是指相对于“官方美术”或“宫廷美术”而言的,由广大劳动人民所创造出的一种能够满足老百姓物质与精神需求的,表现于一定实存载体的民间文化,是集民俗性与文化性于一体的中国传统非物质文化遗产之一。它包括民间绘画、民间剪纸、传统印染、传统雕塑、陶瓷技艺、刺绣技艺、传统编织、传统玩具等种类,具有艺术造型、手工技艺、审美思想、社会功能、艺术价值、文化象征等
本论文通过问卷调查得到了欧美学生学习称谓语和使用称谓语的大量数据。通过调查结果分析,从整体情况看,汉语社交称谓语的平均出错率比亲属称谓语的平均出错率高。汉语水平越
国有企业的工会组织作为紧密联系企业和职工的桥梁和纽带,在企业文化建设中具有先天优势和独特作用。针对当前国企企业文化建设的特点,把充分发挥企业工会工作优势和企业文化
<正> 规模经济理论是定量的研究企业规模与经济效益的理论,而规模经济效益关系曲线是一种快捷、直观、明了的研究规模经济效益的方法。这种方法具有实践性、直观性、预测性、