基于潜在语义相关算法的电子病历检索的研究与应用

被引量 : 5次 | 上传用户:wangchongzhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国医保建设的快速发展,医院信息化系统开发的不断深入,电子病历作为临床医疗信息基础,逐渐成为现代化医院综合信息系统的核心。电子病历对病人的病情等信息进行了详细而完整的记录,它能够帮助医疗人员更好地在临床上进行决策。现今,电子病历在临床诊断与治疗中的应用日益广泛,以此同时,也产生了大量的电子病历数据。如何有效地利用这些电子病历数据辅助医生进行疾病诊断与医学研究是一个非常重要的问题。面对现代医院产生的大型电子病历数据,如何快速准确地检索得到医疗人员所需要的电子病历已成为一个巨大的挑战。然而,应用到电子病历检索的传统关键词检索或者向量空间模型都存在着一定的缺陷,如不能很好的解决医学词汇的同义性问题(如发热与发烧),以及医学词汇的多义性,这种情况的出现,很大程度上影响了电子病历检索的性能。因此,针对医疗领域电子病历的特点建立一个具有检索智能性的电子病历系统就显得尤为重要。鉴于医学词汇间的同义性和单个医学词汇的多义产生的歧义性,本文主要分析了两种智能型信息检索方式:潜在语义分析(Latent Semantic Analysis, LSA)和概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)。它们将信息检索从机械匹配关键词的层面提高到了语义(概念)的层面,从概念意义上来认知和处理检索用户的请求,本文的主要贡献如下。1.构建了一个较为完善的电子病历检索相关测试集,这个相关测试集是电子病历检索性能评价所必不可少的,但是目前国内还没有一个标准的电子病历检索相关文档测试集合可供实验使用,因此本文对该语料库进行了构建,且本文实验表明该语料库构建的很合理,本文研究的检索算法在该语料库上也得到了很好的评价。2.成功地将潜在语义分析算法应用到电子病历领域,实现了基于LSA的电子病历的检索。3.成功地将概率潜在语义分析算法应用到电子病历领域,实现了基于PLSA的电子病历的检索。4.设计了一种自动的PLSA算法中隐含主题数K值选择的算法,是通过对当前最优K值不断逼近来实现的,替代了传统的穷举选择法,本文实验验证了本文所述方法在K值选择的效率优于已有的PLSA算法,并且其选择出来的隐含主题数K值也比较合理。5.提出了一种基于LSA和PLSA的组合算法的电子病历检索方法,该组合算法对基于LSA的电子病历的检索的相似度和基于PLSA的电子病历的检索的相似度进行混合相似度的计算。本文的实验表明,该方法有效地提高了电子病历的检索性能。
其他文献
中国高速铁路的蓬勃发展对民用航空运输企业造成的巨大冲击日益加剧,民航企业应从产业竞争的角度对比进行分析,以探究应对之策。从客户角度出发,高速铁路和民用航空的主要选
<正>在地理考试中,有关日影的问题出现频率较高,因为该问题较为抽象,所以令很多学生感到头疼。其实只要对它进行适当归纳,掌握它的规律,这一类问题也是容易解决的。
近几年来,我国实行了研究生扩招,相对缓解了强烈的研究生入学需求。但是,研究生就业难度增加,就业竞争激烈,就业问题开始凸现出来。本文基于研究生就业现状的分析,研究了影响研究生
随着经济社会的发展,城市的交通状况变得日益紧张。公共交通在节约能源,减少尾气噪声,保护环境等方面起着关键的作用。同时伴随着国家发展规划对公共交通的支持和绿色环保低
谢晋作为中国第三代电影导演之一,为中国电影贡献了毕生尽力,创作出了许多脍炙人口的好电影,他创作的电影影响了同时期中国电影的发展和审美趋向。谢晋不同时期创作的代表性影片
中美两国青少年人格教育在理论基础、模式、内容、目标比较和实施方法上存在着很大的差异性,从比较的视角研究当代中美两国青少年人格教育的特点,可以更好地发挥自身优势,借
市场上现有的航空延误险不能很好地被乘客普遍接受。本文从各个方面分析其原因,将航空延误险分类,针对不同的航空延误险分别提出了优化方案。此外,通过调查确定其可行性,可以
我国电信业经过十多年特别是近几年的飞速发展,已成为启动内需的消费热点和国民经济新的增长点,成为国民经济的重要产业。经过这么多年的发展,电信市场的竞争越来越激烈,已从
在本世纪初期确定,花芽分化有两个时间,一个是春天分化期,另一个是秋天分化期。近年来的资料上所提及的都是春天分化期。秋天分化期只在某一年份,某一品种或在某生长季节较
期刊
超分子液晶是基于次价键相互作用的液晶复合体系,利用氢键、离子相互作用、电荷转移相互作用、疏水相互作用及范德华力等分子间相互作用,可以构筑多种超分子液晶。而以氢键自