面向疾病与变异关系解读的文献挖掘方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:X5203344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代医学认为,多种疾病的发生和发展都与基因突变有着密不可分的联系。研究疾病和变异之间的关联关系对于系统性地理解疾病的致病机制具有重要意义。生物医学文献中包含了大量关于疾病与变异关系的信息。通过应用自然语言处理技术和数据挖掘方法,我们可以识别海量生物医学文献中的基因、变异和疾病等关键的生物医学概念(命名实体识别),并挖掘概念实体之间的关系(关系提取)。以上方法需要处理大量的文献数据、进行大量的计算处理,因此,本文借助高性能计算机的强大算力,实现对海量文献的并行处理。本文的主要研究成果包括:1)疾病NER指代分析改进和变异NER的细节属性提取提出了基于上下文和层次式本体的疾病命名实体识别方法,引入疾病本体信息,增加跨句分析,实验证明该方法可以有效解决因为指代而造成的提取概念太宽泛的问题,提高了疾病命名实体识别的精确性;提出了基于上下文的变异命名实体识别方法,利用上下文信息提取变异的细节属性(变异位置、相关基因等),解决了变异和疾病实体不共现时,在标准化时会出现错误的问题,实验证明该方法有效提高了变异命名实体识别的准确度。2)ParaBTM:基于天河二号的疾病与变异关系并行挖掘框架实现了基于天河二号的疾病与变异关系并行挖掘框架,在天河二号上部署了海量文献,设计了三种合理的负载均衡策略,可以充分利用超算的算力,实验证明该方法可以有效解决文献数量巨大、处理效率不高、并行进程负载不均衡的问题,大大缩短了生物医药文本挖掘过程的时间。3)基于LSTM的关系提取方法在VCF.Digest中的应用提出了基于距离和依存关系的LSTM疾病与变异关系提取方法,利用该方法实现关系提取,而后将文献挖掘结果纳入一个疾病和变异的智能解读系统VCF.Digest中。该系统检测对象的基因变异,并尽可能为每一项变异提供与疾病的关联关系分析提供证据参考和相应置信度,辅助遗传病诊断和指导肿瘤精准用药。实际案例证明,该系统可以在一定程度上为科研人员、医护人员以及个人用户提供变异和疾病的关系和相应文献证据参考。
其他文献
随着信息科学技术的发展,网络支付系统、云计算、物联网技术的成熟,人们对于隐私保护及信息安全的问题也越来越重视。分组密码由于其软硬件实现效率高、易于标准化等特点被广
随着通信领域的飞速发展以及人们生活水平的不断提高,人们对数据流量的需求呈现出爆炸式增长的趋势,大带宽、高速率、低时延,接入方式灵活多样等用户需求使得传统的接入网难
近年来,开源生态系统发展迅猛,优质的开源项目层出不穷。开源生态的迅速发展随之带来了海量的开源资源。面对如此海量的开源资源,能否有效地为开源代码提供丰富的代码描述信
有机半导体是有机电子学的材料基础,其作为活性层材料被应用于有机场效应晶体管(OFETs)。有机半导体可以分为单极性半导体(传输电子的n-型、传输空穴的p-型)和既传输电子也传输空
近几十年来,碳排放的不断增加已经成为温室效应和全球气候变化的主要原因。碳市场被认为是能够有效控制温室气体排放、减缓气候变化的重要手段。2017年12月19日,全国统一碳市
目前,二氧化碳大量排放被认为是导致全球变暖的主要原因之一。为了有效遏制全球变暖的趋势,并对二氧化碳资源进行有效的富集与再利用,二氧化碳捕集成为国内外关注的焦点。相
近几年来,随着5G移动通信、高清视屏、云计算、物联网等新兴技术的出现和迅猛发展,使得以数据中心和城域网为代表的中短距离光通信面临着巨大的数据容量压力,通信系统的容量
面对真实场景的髙维光信号,传统相机仅能捕获其在二维像面上的积分强度,而光场成像能够同时记录光线的空间和角度信息,将光信号的获取与处理的维度扩展至四维。作为一种新颖
1 我国城市生活垃圾处理发展水平评价 1.1 垃圾收运机械化水平稳步提高据统计,2001年全国环卫机械总数达到50467台(辆),1986-2001年环卫机械数量平均年增长率为6.4%。特别是最近
会议
随着虚拟现实技术的飞速发展,室内三维场景的重建引起了众多学者的关注,目前大多三维场景重建都是基于激光扫描数据进行,其虽然能达到较为理想的效果,但设备价格昂贵,RGB-D相