生物医学文本的标注与检索研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:zhy724458069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学技术的快速发展,生物医学方面的文献也快速增长。例如Medline数据库2013包含超过两千万的生物医学文献,而到了2015年,包含的医学文献增加到了二千四百万。对于研究人员,从如此巨大的数据库中检索需要的信息所面临的挑战可想而知。此外生物医学文献的特殊性更增加了检索的难度。例如医学文章中大量使用的的专业词和缩写词,使得一般的检索方法在医学文本检索领域效果很差。本文主要从查询扩展的三种噪声控制和多标签的标注两方面研究生物医学文本的检索。论文首先介绍了生物医学研究的发展及现状,然后介绍了检索领域的基本理论和多标签标注的基本理论。通过抑制查询扩展技术中存在的噪声提高生物医学信息检索的性能。本文还将CCA用于多标签的标注,并利用基于CCA标注算法提取医学文献的MeSH短语,然后将提取的MeSH短语用于查询扩展。本文的主要工作包括:第一,分析了前人在运用基于本体的查询扩展方法时得出的不同结论,得出了查询扩展效果不理想是因为在查询扩展过程中引入了噪声。第二,针对查询扩展的噪声问题,提出了三种控制噪声的方法,并在短语的基础上提出了基于单词,基于短语和混合三大检索模型。实验结果表明我们的噪声控制方法是非常有效的,能够显著提高检索的性能。第三,将CCA方法应用到了多标签标注领域,对于未知样本标签的预测,提出了自己的CCA标注方法。通过在多个多标签数据集上测试表明,基于CCA的标注算法在多个性能指标上取得了不错的效果,并将该标注算法应用到了医学文本和查询的MeSH的标注,从而进一步提高检索的性能。
其他文献
运动对象分割是图像分割的一个重要分支。图像分割就是把图像分割成具有相同信息的子区域,运动对象分割是在图像分割基础上把视频图像或图像序列按照一定的标准分割成不同的
在各种临床诊断,治疗中使用的医学影像,都具有高分辨率、大存储量的特点,随着数字化影像技术的发展,进一步减少医学图像所占的存储空间,提高其在网络上的传输速度,就显得十分
深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无
进化非选择算法是通过借鉴生物免疫进化机制与免疫非选择机制而提出的,具有较好的全局搜索能力。可满足性问题是六个基本的NP完全问题之一,其他NP完全问题均可在多项式时间内
近几年来,以网络为载体的各种应用的研究和开发受到了广泛的关注。其中点对点通信系统作为其中一个重要的应用有着飞速的发展。这类系统涉及到网络组织架构、信道编码、网络
随着科学技术的发展,人们对信息传播和检索的要求越来越高。传统的纸质文献资料虽然是不可或缺的,但是已经不适应信息的快速传播。OCR技术实现了从纸质文献到电子文档的转换,
随着Internet的迅速发展,博客成了继Email、BBS、QQ/ ICQ之后的新一代网络交流方式,并以极快的速度融入到人们的日常生活中,成为基于互联网的基础服务。随着博客空间的急速增
计算机软硬件及网络技术的发展为数字产品的传播带来极大的便利,但随之而来的负作用是通过网络传输的数字产品很容易被非法使用。软件作为一种数字产品,其版权保护已成为一个
自从“云计算”的概念被提出后,云计算迅速成为IT领域的研究热点。云计算给我们带来了新的计算和服务模式。通过这种模式,用户可以按需访问云上的应用程序和数据。作为云计算
目前,人们对网络服务的要求越来越高,同时这些网络服务也被大量地开发出来。如何管理和整合这些大量的、不断变化的服务成了必须要解决的问题。当前采用的GIS应用系统难于适