生物医学领域检索系统查询扩展技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算技术和生物技术的进步,当前生物医学相关的文献正在以前所未有的速度增长。著名的MEDLINE数据库已经收集了自1965年以来的近1100万篇的生物医学相关文献,并且以每天1500篇的速度在增长。这些文献中蕴含了大量的知识。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。这些知识应用于实际,可以更好地诊断、预防和治疗人类的疾病。但是,人工从海量的文献中发现这些知识几乎是一件不可能的任务。因此,针对海量的生物医药文献的信息检索系统成为相关研究人员的迫切需求。2003年,TREC基因学方面的项目应运而生。本文研究的基础就是TREC 2007年的基因学项目。因此本文首先对TREC做了简要的介绍,并详细介绍了TREC Genomics Track 2007数据源、主题以及评测提交形式。然后讨论和分析了当前主要的信息检索模型,以及本文介绍的生物医药领域检索系统中搭建检索模块用到的Indri工具包。在检索过程中考虑到查询中所使用的术语可能与文档集中使用的术语不匹配而导致一些相关的文档不能被成功地检索出来,影响检索效果,本文提出了两个查询扩展的方法——正规化的同义词查询扩展方法和基于查询结果反馈的查询扩展方法。最后描述了生物医学领域检索系统的整体设计、实现和测试结果。本文重点讨论并实现了以下两个方面的内容:信息检索模型,查询扩展技术。利用以上技术,本文初步实现了生物医学领域检索系统。为了考察本系统的性能以及查询扩展方法对于系统性能的影响,文本设计了相应的实验。实验表明,查询扩展方法对系统的性能会有积极的影响,其中正规化的同义词查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高4.5%、3.4%、2.3%;而基于查询结果反馈的实体查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高19.1%、20.5%、15.8%,其中Document MAP达到0.3445,在参与TREC Genomics Track 2007系统评测的小组的评测结果中排在了第一位。
其他文献
随着各种数据业务的不断发展,运营商对于在其已经建立的PDH电信网上传输以太网数据的设备(EoPDH:Ethernet-over-PDH)提出了更高的要求,与此同时标准、开放的CompactPCI技术不断
本文第一章提出信息中的否定关系应当区分为矛盾否定关系和对立否定关系,发现了一类对立概念的特征:对立概念之间存在中介概念的充分必要条件是对立概念为模糊概念,从概念层
改革开放以来,我国经济突飞猛进,令世人瞩目,但伴随而来的职业病危害问题也引起了社会的广泛关注。我国目前存在有毒有害生产作业的企业数量巨大,而相对应的职业病危害风险评估专
分类是从训练数据集中找出一个类别的概念描述,依据概念描述来建立分类模型,并用该模型预测未知数据的类别。作为数据挖掘的一个重要分支,它在商业、医学、军事等领域都有广
地理信息系统是近年来信息技术迅速发展的热点之一,不同应用领域的地理信息系统(GIS)随着其自身的不断发展和完善,其应用领域将会不断地扩展和延伸。不同的应用领域对GIS的要求也
随着移动通信技术的快速发展和移动计算机的大量普及,由移动计算、实时应用结合传统数据库技术而形成的嵌入式移动实时数据库系统已成为数据库领域的新兴热点课题。其缓冲区
智能优化算法区别于传统的优化算法,以其在工程问题寻求全局最优解中的巨大优势,目前越来越受到人们的关注。模拟退火算法,蚁群算法,遗传算法和粒子优化算法等作为智能优化算
现在,我们正处于一个信息爆炸的时代,随着网络技术的推广以及其中各种应用数量的增加,互联网中的数据量也快速上升着。电视剧领域也深受互联网的影响,同样出现了信息过载的问
随着计算机和互联网技术的高速发展,人们采集和处理的数据格式越来越丰富。对于常见的实数数据已有大量研究工作,而相对来说区间值数据的研究比较少。区间值数据在多变量分析
随着物联网用户的增多,数据传输量迅速增加,导致云服务器负担过重。而雾计算具有低延迟、实时性、支持移动性等优点,提供了减轻云服务器压力的新方法。目前,资源调度是雾计算