数据融合在电子病历检索中的应用研究

来源 :江苏大学 | 被引量 : 2次 | 上传用户:xiaodong0814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着医疗办公无纸化的推广,电子病历(Electronic Medical Record,EMR)的使用也越来越普及。电子病历中不但记录病人病情,还记录了医生对病人的治疗方案以及治疗效果。当医生在临床诊断的时候可以利用这些信息来进行辅助决策。然而面对日益增长的电子病历数据,如何能够快速地在海量的电子病历中找到需要的信息是当前的一个挑战。现在的电子病历检索系统存在着一定的缺陷,特别是针对电子病历中半结构化的部分,还不能做到有效的识别和检索,而医疗领域又是一个对信息准确度有着高要求的领域,因此如何提高电子病历的检索性能就显得尤为重要。另一方面,信息检索中的数据融合技术能够将多个检索系统的结果通过一定的方法重新组合成一个新的结果。以往的研究表明,使用数据融合方法能够提升最终检索结果性能,而在电子病例检索领域中,并未对数据融合方法的应用进行深入的探索。因此,对于电子病历的检索,本文考虑从数据融合的角度出发,来对其进行研究。论文主要工作如下:(1)对已有的数据融合算法进行分析,探索其在电子病历检索中的适用性。首先分析了两种经典的数据融合算法CombSUM和CombMNZ,这两种算法同等对待所有的检索系统和结果。但在数据融合中,参与融合的系统性能可能各不相同,如果不加区分,同等对待所有的系统不能取得较好的结果。因此本文重点考虑了数据融合中一类算法——线性组合法。该类算法能够根据具体的情况对参与融合的成员系统赋予不同的权重,比较灵活。对成员系统进行合适的权重分配是决定线性组合法成功与否的关键。特别地,本文分析了基于多元线性回归的权重分配策略和基于遗传算法的权重分配策略。选择前者,主要是利用最小二乘法可以很准确地估计文档的相关性得分从而提高电子病历检索的最终融合效果;选择后者,则是希望利用遗传算法良好的全局探索能力,以便获取到一组能够提升最终融合效果的系统权重。除此之外,本文中首次将粒子群算法引入到数据融合中,利用粒子群算法中粒子之间能够相互通信、逐渐趋向于最优解的特点,优化权重分配策略,提高融合结果的性能。最后将这五种数据融合算法应用到电子病历检索中。(2)实验采用权威性的TREC检索评价会议中的两项有关的数据集。在参与融合的成员系统个数不同的情况下,测试了五种融合算法结果在多种评价指标下的有效性,同时也比较了它们所消耗的时间。实验结果表明,使用基于粒子群算法的权重分配策略对电子病历检索的融合效果提升最好;在同等情况下,五种融合算法中CombSUM消耗的时间最少;而如果兼顾考虑融合的时间和效果的话,基于多元线性回归的权重分配策略是一个不错的选择。最后,本文的实验结果表明,使用数据融合算法来提升电子病历检索的性能是可行的。
其他文献
网络模拟已成为研究Internet的重要手段,然而互联网的规模、复杂性、异构性等问题严重制约着互联网行为的研究。由于异构、复杂、大规模的网络模拟需要耗用巨大的计算资源,无
在无线传感器网络(Wireless Sensor Network,WSN)中,溯源数据(Provenance)是评估数据可信性的重要依据之一,Provenance记录了一个数据包从产生至被传输至基站(BS)途经的全部
基于帧内编码地理信息视频系统是一个结合了地理信息系统和视频系统的综合应用系统。在地理信息和视频结合的需求不断增长的大背景下,本文对现有的地理信息系统和视频系统的
随着全球经济一体化的深入发展,敏捷的、不受限制的集成业务流程的需求已经成为关键的业务需求。在这种状况下,面向服务的架构(Service Oriented Architecture, SOA)应运而生
近年来,随着多核处理器的迅速普及,多核并行计算已经成为计算机领域的一个重要研究课题。尽管多核处理器的计算能力显著提升,但是由于当前大量软件都是基于单核处理器开发,不
近年来,虚拟现实技术已成为计算机应用领域的研究热点之一。它利用计算机多媒体技术在计算机系统中仿真真实世界的环境,通过计算机的相关设备来模拟人体的视觉、听觉等真实感知
软件复用是提高软件生产效率和提高软件质量的关键技术,软构件是软件产品族的核心资产之一,通过对产品族构件的复用,能有效缩短产品族软件开发周期。本文结合软构件技术,在已
特征选择是机器学习领域的研究的重要内容之一。随着应用于机器学习领域的数据维数不断升高,数据存储、运算,都消耗了大量的计算机资源。为了节省资源,避免所谓“维数灾难”
城市交通网络是一个典型的复杂网络。它具有复杂的动力学行为、时空特性和结构特征。目前,如何运用复杂网络的研究方法去分析交通网络的复杂性已经成为研究者们关注的热点。利
由于数据流快速、连续到达的大量数据使大多数的传统的聚类方法失效,因此数据流领域里的数据挖掘中的聚类是一个难题。不能满足应用要求的传统的数据聚类算法极大地制约着数