基于远程监督的医学文献关系抽取研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:seakider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学信息学的不断发展,医学文献呈现日益增长的趋势,从这些文献中可以挖掘大量医学知识,例如疾病基因、疾病药品等关系,通过这些关系医生可以掌握疾病特性、预测疾病变异、研发新型药品。关系抽取可以完成这些知识的自动化抽取,其作为信息抽取中最重要的任务,也是知识图谱建立的关键步骤。传统关系抽取需要大量已标注的高精度语料库,手动标注过程既费时又费力。利用远程监督方法构建训练语料是常用的半监督方法,但该方法会存在错误标注的问题,尤其是对于精准医学领域,这种错误是不可容忍的。针对以上问题,本文设计了面向医学文献进行关系抽取的方法,其中包括关系抽取研究、关系的分类研究以及可视化系统的构建。本文从以下几个方面进行研究:(1)针对医学领域缺少训练语料的现状,提出基于远程监督的训练语料自动构建方法。首先构建了肺癌医学领域知识库,利用远程监督的方法进行预标注,并优化了预标注结果。针对远程监督方法产生的错误标注问题,提出了关系标志词的获取方法,过滤了大量错误标注。经实验验证,该方法获得的自动标注语料在传统关系抽取模型效果都有提升,较原始语料精度有所提高。(2)针对疾病-基因关系分类问题,提出基于关系标志词的聚类方法。对疾病-基因关系进行更细致的分类,从关系标志词入手,使用Word2vec、Trans E等对关系标志词进行特征表示,利用聚类方法对关系标志词进行更详细的分类,选取了最优特征表示方法与聚类方法,判定关系标志词的最优聚类簇数,最终结合疾病-基因本体层结构进行验证。(3)针对抽取知识的应用问题,构建肺癌领域信息检索分析与可视化展示系统。利用关系抽取获得的疾病-基因关系等知识作为数据源,提出一种基于Neo4j图形数据库的存储方案,并构建领域知识图谱。设计并实现了系统的各个模块分工与安排,最终通过该系统为研究人员提供肺癌领域知识的检索分析与可视化功能。
其他文献
CDN(Content Delivery Network,即内容分发网络)业务开始成为市场发展的焦点。在中国,互联网蓬勃发展,互联网内容几何级增加,互联网应用、资讯和视频等内容极大丰富了人们生
在长期的游牧生产活动中,牧民与大自然和谐相处,创造了具有本土特色的地方性知识。它产于特定的自然与人文环境,反映了游牧生产活动与自然界和谐共处的生态理论实践行为。游牧生产知识是当地牧民在一定的自然与地理环境打交道过程中创造的具有文化特征的游牧生产知识。地方性知识生产于本民族生存的自然环境。包括自然生态知识、人文知识,它有地域性、地方性、民族性特征。在漫长的游牧生产生活中,柯尔克孜人与大自然相处的过程
近年来,中国对外开放程度不断提升,与全球各国之间的经济交流不断深入,贸易交往日益频繁。国际业务作为我国对外交往和贸易交流过程中的重要工具,从贸易初期到现在,在国有控股银行及大型的商业银行已发展的相对成熟,对国际经济发展也起到了重要的推动作用。但是,我国部分中小金融机构,如城商行、农商行,在国际业务发展及其风险管理方面还相对落后。随着我国金融体制改革的不断深入,农村信用社逐步改制为农商行,为拓展业务
粮食安全与社会稳定和经济发展息息相关,而工业化是一个国家经济发展和社会进步的必经之路。新中国成立以来,我国粮食安全保障水平整体呈上升趋势,在工农关系上,通过“农业为
英国文学一直以来就是英语国家对人文学科信念的核心,在西方文学发展历程中有着深远的影响。世界文学的进步与发展需要通过翻译这一桥梁来实现交流、碰撞与沟通,文学翻译在英
全球化进程使得国与国之间的交流更加方便,不同国家之间的文化交流也因此随之激增。其中,文学作品起着至关重要的作用。文学作品可以愉悦读者心灵,近年来文学作品的翻译层出
随着通信技术的蓬勃发展和通信设备的快速更新,高速数传技术的发展需求越来越大。特别是在卫星通信系统中,高速数传技术是解决天地之间大量数据传输的关键技术,而多模式调制
β-葡萄糖醛酸苷酶(GUS)被广泛应用于天然葡萄糖醛酸苷类化合物的修饰,以提高其活性和生物利用度。课题组前期发现来源于米曲酶(Aspergillus terreus Li-3)的GH2家族的β-葡萄糖
现有研究表明,顾客推荐直接影响消费者的购买决策和企业的品牌形象。因此,如何促进顾客推荐行为,成为企业和理论界共同关注的问题,电子商务平台更是需要通过各种营销方式鼓励
全球范围内世界各国和地区对气候气象相关问题的关注日益显著,各国专家和学者发表或出版了大量相关领域的研究成果。国内翻译研究者在对这类文献进行翻译时,也逐渐开始对气象