论文部分内容阅读
现代医学认为,多种疾病的发生和发展都与基因突变有着密不可分的联系。研究疾病和变异之间的关联关系对于系统性地理解疾病的致病机制具有重要意义。生物医学文献中包含了大量关于疾病与变异关系的信息。通过应用自然语言处理技术和数据挖掘方法,我们可以识别海量生物医学文献中的基因、变异和疾病等关键的生物医学概念(命名实体识别),并挖掘概念实体之间的关系(关系提取)。以上方法需要处理大量的文献数据、进行大量的计算处理,因此,本文借助高性能计算机的强大算力,实现对海量文献的并行处理。本文的主要研究成果包括:1)疾病NER指代分析改进和变异NER的细节属性提取提出了基于上下文和层次式本体的疾病命名实体识别方法,引入疾病本体信息,增加跨句分析,实验证明该方法可以有效解决因为指代而造成的提取概念太宽泛的问题,提高了疾病命名实体识别的精确性;提出了基于上下文的变异命名实体识别方法,利用上下文信息提取变异的细节属性(变异位置、相关基因等),解决了变异和疾病实体不共现时,在标准化时会出现错误的问题,实验证明该方法有效提高了变异命名实体识别的准确度。2)ParaBTM:基于天河二号的疾病与变异关系并行挖掘框架实现了基于天河二号的疾病与变异关系并行挖掘框架,在天河二号上部署了海量文献,设计了三种合理的负载均衡策略,可以充分利用超算的算力,实验证明该方法可以有效解决文献数量巨大、处理效率不高、并行进程负载不均衡的问题,大大缩短了生物医药文本挖掘过程的时间。3)基于LSTM的关系提取方法在VCF.Digest中的应用提出了基于距离和依存关系的LSTM疾病与变异关系提取方法,利用该方法实现关系提取,而后将文献挖掘结果纳入一个疾病和变异的智能解读系统VCF.Digest中。该系统检测对象的基因变异,并尽可能为每一项变异提供与疾病的关联关系分析提供证据参考和相应置信度,辅助遗传病诊断和指导肿瘤精准用药。实际案例证明,该系统可以在一定程度上为科研人员、医护人员以及个人用户提供变异和疾病的关系和相应文献证据参考。