论文部分内容阅读
随着我国医保建设的快速发展,医院信息化系统开发的不断深入,电子病历作为临床医疗信息基础,逐渐成为现代化医院综合信息系统的核心。电子病历对病人的病情等信息进行了详细而完整的记录,它能够帮助医疗人员更好地在临床上进行决策。现今,电子病历在临床诊断与治疗中的应用日益广泛,以此同时,也产生了大量的电子病历数据。如何有效地利用这些电子病历数据辅助医生进行疾病诊断与医学研究是一个非常重要的问题。面对现代医院产生的大型电子病历数据,如何快速准确地检索得到医疗人员所需要的电子病历已成为一个巨大的挑战。然而,应用到电子病历检索的传统关键词检索或者向量空间模型都存在着一定的缺陷,如不能很好的解决医学词汇的同义性问题(如发热与发烧),以及医学词汇的多义性,这种情况的出现,很大程度上影响了电子病历检索的性能。因此,针对医疗领域电子病历的特点建立一个具有检索智能性的电子病历系统就显得尤为重要。鉴于医学词汇间的同义性和单个医学词汇的多义产生的歧义性,本文主要分析了两种智能型信息检索方式:潜在语义分析(Latent Semantic Analysis, LSA)和概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)。它们将信息检索从机械匹配关键词的层面提高到了语义(概念)的层面,从概念意义上来认知和处理检索用户的请求,本文的主要贡献如下。1.构建了一个较为完善的电子病历检索相关测试集,这个相关测试集是电子病历检索性能评价所必不可少的,但是目前国内还没有一个标准的电子病历检索相关文档测试集合可供实验使用,因此本文对该语料库进行了构建,且本文实验表明该语料库构建的很合理,本文研究的检索算法在该语料库上也得到了很好的评价。2.成功地将潜在语义分析算法应用到电子病历领域,实现了基于LSA的电子病历的检索。3.成功地将概率潜在语义分析算法应用到电子病历领域,实现了基于PLSA的电子病历的检索。4.设计了一种自动的PLSA算法中隐含主题数K值选择的算法,是通过对当前最优K值不断逼近来实现的,替代了传统的穷举选择法,本文实验验证了本文所述方法在K值选择的效率优于已有的PLSA算法,并且其选择出来的隐含主题数K值也比较合理。5.提出了一种基于LSA和PLSA的组合算法的电子病历检索方法,该组合算法对基于LSA的电子病历的检索的相似度和基于PLSA的电子病历的检索的相似度进行混合相似度的计算。本文的实验表明,该方法有效地提高了电子病历的检索性能。