基于语义和半监督学习的医学文献知识发现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:beauty85123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,每年生物医学文献的数量正在呈指数的方式增长,科研人员为了得到好的研究成果,需要查找阅读大量的文献,但如此大规模的文献,给科研人员带来了巨大的困难。同时,现代科学研究分工明确,不同学科之间的交流匮乏,交叉学科的知识往往会被人们忽视,而这些文献中隐含着大量有用的、潜在的信息。Swanson在1986年提出了基于非相关文献的假设发现研究,提出并验证了鱼油可以治疗雷诺氏病的经典案例。随后许多研究人员对假设发现做了大量研究,并取得了大量的研究成果。但传统的基于简单共现的方法会产生大量的目标词,导致很难发现有用的假设。本文提出了一种基于语义资源的方法,利用SemRep工具抽取句子内实体之间的关系,结合语义类型、概念的信息量以及关联规则对连接词、目标词进行过滤,并根据统计量信息对目标词进行排序。通过对Swanson发现的经典病例进行验证,实验结果表明该方法取得很好的效果。另一方面,由于SemRep工具产生的语义关系准确率召回率(55%)比较低,会丢失文本中大量的关系,并影响最终的发现结果。本文使用基于词特征的核和图核来抽取句子之间的关系,并使用半监督学习Co-training的思想对训练集进行扩充,在句子关系抽取方面相较于SemRep有提高。本文使用以上的关系抽取方法,利用SVM分类器,分别建立了AB、BC两个监督模型,对于不同语义类型的关系分别进行抽取,并与SemRep工具在经典病例上进行对比,实验结果表明该方法取得较好的效果。
其他文献
双目立体计算机视觉一直以来都是计算机视觉技术研究中的一个热点研究课题。它是通过双目摄像机模拟人眼采集物体的成像,建立起实物,实物成像和摄像机之间的几何关系,还原出
随着物联网、遥感、地理信息、大数据、云计算等新技术和手段在森林火灾动态监测方面的广泛应用,多源、异构、高维及海量的监测数据呈爆炸式增长。传统的监测方法在过去很长一
科学计算可视化是指运用计算机图形学等知识,将数据以直观的形式表现出来,于20世纪80年代后期被提出并得到了迅速发展。目前,它广泛应用于各种领域,例如医学、气象预报、分子
近年来,随着数字媒体技术和信息技术的不断发展更新,不仅为数字媒体包括数字图像的产生、制作和传播提供了便利,更使得数字媒体的编辑、复制和篡改更为容易,这就导致数字图像
随着时代的发展,科学技术和劳动者素质成为社会发展的一个重要因素,发展高等教育成为推动科技进步,提高劳动者素质的一个必然选择。现代信息技术的普遍应用推动了教学模式、教学
随着移动互联网的飞速发展及智能手机等移动电子设备的普及,自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文本包含了丰富的信息,人们期待计算机能代替人类自动
随着生活中多彩多样的娱乐、学习、工作等需求的不断发展,视频需求蓬勃兴起,视频服务相关应用的爆炸式发展已经开始主导网络技术的演化与变革。据Cisco预测,截至2018年,移动
云计算技术的兴起和快速发展,使用户可以将海量图像数据存储到云服务器。这样不但可以减轻用户的存储和管理负担,而且能为用户提供便捷的数据访问服务。但云服务器并不是完全可
随着网络技术和计算机技术的快速发展,电子文档成为日常学习和工作中不可或缺的资料。数学表达式作为许多电子文档重要的组成部分,如何将其输入到计算机中是亟待解决的问题。早
随着智能电网建设的快速发展,电力系统设备种类和数量越来越多,对电力设备图像的特征提取和准确分类,有利于提升电力系统管理的自动化和智能化水平。本文首先对从现场采集到的电