基于随机森林算法的医学文献检索研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:tszhzhc159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代医学水平的不断提高,医学文献的数量也快速增长,如何在海量医学文献中寻找到与患者症状信息最为相关的目标医学文献也变得越来越困难,主要困难之处在于患者症状信息的不完备和不同疾病的症状雷同。本文研究方向是面向临床决策支持服务的医学文献检索研究,主要探究的内容是如何从给定的医学文献集合中找出与患者症状信息最为相关的目标医学文献,从而帮助临床医生给出疾病诊断,最终达到临床决策支持的目的。因而本文的主要研究就集中在以下几个方面:第一,在对患者症状信息的处理上,本文提出了一种关键词共现的方法来处理患者症状信息。首先提取文献集合中每一篇文献的关键词构建文献关键词集合,然后提取MeSH标准词库中的医学术语构建医学术语集合,继而再对医学文献集合中每一篇文献中的缩略词进行提取和规范化处理,从而构建出缩略词集合。根据文献关键词集合,MeSH医学术语集合和缩略词集合,最终本文构成一个标准关键词集合。基于得到的标准关键词集合,并利用关键词共现的方法扫描患者症状信息提取出价值较为高的关键词,从而完成患者症状信息的优化处理,完成查询优化。第二,在对检索结果的排名优化上,本文利用了随机森林算法建立了查询与文献的相关度等级的预测模型。根据选取的特征,对查询与文献的相关度等级进行预测。患者症状信息与文献的相关度等级分为三个等级,分别为“完全相关”、“潜在相关”和“完全不相关”,对应的相关度数值分别为2、1和0。实验表明,与基本的模型相比,由随机森林算法模型得到的重新排序结果各个评价指标都得到了一定的提升。第三,在提取查询和文献的特征上,本文不仅提取了四个基本的相似度特征。还通过找出文献集合中的文献引用关系,构建了引文网络。根据该引文网络,本文利用了PageRank算法计算出文献集合中文献的PageRank值。除此之外,还应用了HITS算法,计算出文献集合中文献的Authority值。最后,本文把根据引文网络计算得来的PageRank值和Authority值也作为特征加入到随机森林模型。实验表明,加入这两个特征之后,医学文献的检索性能得到了一定的提高,各个评价指标也有不同程度的提升。最后,本文对相关实验方法和实验结果都给出了详细和必要的说明。
其他文献
<正>近年来,笔者在临床工作中发现,采用逍遥散合补中益气汤加减治疗女子婚后不孕,收到了较满意的效果,现总结如下。1病例资料1.1患者女性,41岁,广安区白市镇白莲村4组,患者16
混合式教学是一种在“长期教育改革”和“教育信息化”理念指导下,将传统教学与数字化学习结合起来的教学模式,在最近几年得到了各界教育专家的重视。评价作为混合式教学中至
可编程序控制器(PLC)是以微处理器为核心,集微机技术、自动化技术和通信技术于一体,是近年来发展极为迅速、应用极广的性能优异的工业微机。同步发电机励磁系统是电力系统控制
乳腺癌新辅助化疗始于20世纪70年代,研究证实新辅助化疗可以使不可手术的局部晚期乳腺癌患者获得手术治疗的机会,并且新辅助化疗可以提高保乳手术的概率。然而,大约只有3%-30
在全球化的形势下,文化资本对政治、经济、文化、个体发展的影响越来越大,文化资本作为认识社会和改造社会的一把钥匙,也越来越受到人们的重视。木文从唯物史观的角度,运用静态分
近期,部分主要国家或组织发布了多个5G安全领域相关报告或提案,这些报告和提案或直接或委婉,却都将中国及中国公司作为竞争对手甚至是封锁对象。美国国防部(DOD)国防创新委员
现代办公从某种程度上来看是信息的处理,网络时代人们借助高性能个人计算机、电子办公设备,轻松的实现了随时随地办公。因此在全球范围内出现了以选择性办公、居家办公为代表
作为研究非对称信息下激励机制的主要理论工具,博弈论和契约理论在报酬契约设计尤其是针对企业经营者的报酬契约设计方面已经得到了广泛应用和长足发展,对促进企业改革与经济
企业的薪酬体系是企业吸引人才、激励人才和留住人才的关键。如何建立具有竞争力、激励性的有效薪酬体系,是企业面临的重要课题。论文以解决S测绘仪器公司原有薪酬体系存在的
<正>亚麻酸就是亚麻籽油中的一种主要成分,看上去平平淡淡,没有什么特别之处。然而平凡之中见神奇,它被营养学家授予了"植物黄金"的称号,奥秘何在呢?