论文部分内容阅读
研究基因突变是人类认识并治疗疾病的重要途径,当某个基因发生突变时往往伴随着基因功能的变化,进而导致机体产生疾病,我们将这一连串的动作称为基因突变事件。根据基因突变对功能的影响,可以将基因突变分成两类:获得功能(GainOf-Function,GOF)突变和失去功能(Loss-Of-Function,LOF)突变,于是基因突变事件可以描述为“基因-功能变化-疾病”这样的结构。研究表明当某个基因发生LOF突变(或GOF突变)时导致特定疾病发生,此时我们可以寻找药物作用机理对症的药物(抑制剂-GOF,激活剂-LOF)作为治疗该疾病的潜在药物。或者当突变事件已知,若某药物作用机理与突变功能相向(抑制剂-LOF,激活剂-GOF),此时该药物可以作为突变事件中疾病产生的一种可能的解释。此外,基因突变事件作为一类基因突变数据,其与传统的GWAS数据不同,该数据通过功能变化及与疾病的关系描述突变,类似于一句描述性语言,并且携带丰富的突变及表型关联信息,因而可以作为研究基因突变与疾病关系的补充数据。基因突变数据同时可以作为异构生物网络中的一个子网络,在基因突变事件中,基因通过功能变化与疾病相关联,而基因与基因之间,疾病与疾病之间,以及基因,疾病与其他生物实体之间同样存在联系。基因突变事件数据为该异构网络增加了更加具体的突变语义信息,使得网络信息更加丰富可用。因此获取并研究基因突变事件意义重大。近年来,研究表明突变事件广泛的存在于生物医学文献中,并且目前还没有工作设计算法自动化的从海量生物医学文本中提取基因突变事件,因此设计算法获取并研究文本中的基因突变事件意义重大。在本研究中我们利用文本挖掘方法从海量生物医学文献中挖掘基因突变事件,并设计了两个数据整合模型将基因突变事件数据用于实际场景中。首先我们基于BERT构建出联合学习模型用于同时挖掘生物医学文献中的突变事件触发词以及功能变化方向,与传统的非联合学习的模型相比,我们设计的模型在触发词识别上获得10.63%的提高,在功能变化分类上获得36.0%的显著提高。以联合学习模型为子模块我们开发了一整套突变事件提取流程,并成功的提取84种常见癌症相关的基因突变事件。为将突变事件数据与传统的突变数据做整合,我们设计了基于Latent Dirichlet Allocation(LDA)模型的生成模型GDAMDB,该模型通过引入开关变量成功的将突变事件数据与GWAS突变数据做整合以加强对疾病相关基因的发现,以阿兹海默病(Alzheimer’s disease,AD)为例,该模型成功预测出79个阿兹海默病相关基因,其中69个基因有明确证据证明与AD或神经退行性疾病相关,剩余10个基因没有相关文献以及数据库记载,但我们猜测这些基因是潜在的AD强相关基因。为了将突变事件数据与异构生物网络做整合,并将突变信息嵌入到低维向量中,我们首先通过检索8大数据库构建出以基因与疾病为中心的异构生物网络,并将网络中相同的节点映射到统一的ID上。接着我们构建JDHMT模型用于同时分解矩阵和张量,其中矩阵用于存储异构生物网络,张量用于存储突变事件网络。通过联合分解,突变信息被嵌入到低维向量中,此时我们分别通过外部评价和内部评价方法评估嵌入的质量,在外部评价中我们用t-SNE将基因和疾病节点做降维并可视化,我们发现相比于其他模型我们的模型能够更好的将基因和疾病区分开来。同时在内部评价中我们通过欧式距离计算疾病近似节点,结果发现相比其他模型我们的模型能够更好的将相似疾病聚类在一起。这说明JDHMT模型学习到的基因和疾病的节点嵌入相比于其他模型携带更多的节点类别信息。在外部评价中,我们利用模型学习到的嵌入预测Int OGen数据库中的突变事件三元组以评价各模型学习到的嵌入质量,相比于其他模型,JDHMT模型所学到的嵌入能够更好的重构突变事件三元组,并且在Hit@N各尺度的评价指标上均高于其他模型。以上实验均表明通过我们的基因突变事件提取流程,从海量生物医学文献中获取基因突变事件是高效可行的,并且基因突变事件作为一种特殊的携带丰富突变语义的基因突变数据,其可以被应用于生物信息学众多研究中。