基因突变事件的提取及其多组学数据融合应用

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:yinxuchao1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究基因突变是人类认识并治疗疾病的重要途径,当某个基因发生突变时往往伴随着基因功能的变化,进而导致机体产生疾病,我们将这一连串的动作称为基因突变事件。根据基因突变对功能的影响,可以将基因突变分成两类:获得功能(GainOf-Function,GOF)突变和失去功能(Loss-Of-Function,LOF)突变,于是基因突变事件可以描述为“基因-功能变化-疾病”这样的结构。研究表明当某个基因发生LOF突变(或GOF突变)时导致特定疾病发生,此时我们可以寻找药物作用机理对症的药物(抑制剂-GOF,激活剂-LOF)作为治疗该疾病的潜在药物。或者当突变事件已知,若某药物作用机理与突变功能相向(抑制剂-LOF,激活剂-GOF),此时该药物可以作为突变事件中疾病产生的一种可能的解释。此外,基因突变事件作为一类基因突变数据,其与传统的GWAS数据不同,该数据通过功能变化及与疾病的关系描述突变,类似于一句描述性语言,并且携带丰富的突变及表型关联信息,因而可以作为研究基因突变与疾病关系的补充数据。基因突变数据同时可以作为异构生物网络中的一个子网络,在基因突变事件中,基因通过功能变化与疾病相关联,而基因与基因之间,疾病与疾病之间,以及基因,疾病与其他生物实体之间同样存在联系。基因突变事件数据为该异构网络增加了更加具体的突变语义信息,使得网络信息更加丰富可用。因此获取并研究基因突变事件意义重大。近年来,研究表明突变事件广泛的存在于生物医学文献中,并且目前还没有工作设计算法自动化的从海量生物医学文本中提取基因突变事件,因此设计算法获取并研究文本中的基因突变事件意义重大。在本研究中我们利用文本挖掘方法从海量生物医学文献中挖掘基因突变事件,并设计了两个数据整合模型将基因突变事件数据用于实际场景中。首先我们基于BERT构建出联合学习模型用于同时挖掘生物医学文献中的突变事件触发词以及功能变化方向,与传统的非联合学习的模型相比,我们设计的模型在触发词识别上获得10.63%的提高,在功能变化分类上获得36.0%的显著提高。以联合学习模型为子模块我们开发了一整套突变事件提取流程,并成功的提取84种常见癌症相关的基因突变事件。为将突变事件数据与传统的突变数据做整合,我们设计了基于Latent Dirichlet Allocation(LDA)模型的生成模型GDAMDB,该模型通过引入开关变量成功的将突变事件数据与GWAS突变数据做整合以加强对疾病相关基因的发现,以阿兹海默病(Alzheimer’s disease,AD)为例,该模型成功预测出79个阿兹海默病相关基因,其中69个基因有明确证据证明与AD或神经退行性疾病相关,剩余10个基因没有相关文献以及数据库记载,但我们猜测这些基因是潜在的AD强相关基因。为了将突变事件数据与异构生物网络做整合,并将突变信息嵌入到低维向量中,我们首先通过检索8大数据库构建出以基因与疾病为中心的异构生物网络,并将网络中相同的节点映射到统一的ID上。接着我们构建JDHMT模型用于同时分解矩阵和张量,其中矩阵用于存储异构生物网络,张量用于存储突变事件网络。通过联合分解,突变信息被嵌入到低维向量中,此时我们分别通过外部评价和内部评价方法评估嵌入的质量,在外部评价中我们用t-SNE将基因和疾病节点做降维并可视化,我们发现相比于其他模型我们的模型能够更好的将基因和疾病区分开来。同时在内部评价中我们通过欧式距离计算疾病近似节点,结果发现相比其他模型我们的模型能够更好的将相似疾病聚类在一起。这说明JDHMT模型学习到的基因和疾病的节点嵌入相比于其他模型携带更多的节点类别信息。在外部评价中,我们利用模型学习到的嵌入预测Int OGen数据库中的突变事件三元组以评价各模型学习到的嵌入质量,相比于其他模型,JDHMT模型所学到的嵌入能够更好的重构突变事件三元组,并且在Hit@N各尺度的评价指标上均高于其他模型。以上实验均表明通过我们的基因突变事件提取流程,从海量生物医学文献中获取基因突变事件是高效可行的,并且基因突变事件作为一种特殊的携带丰富突变语义的基因突变数据,其可以被应用于生物信息学众多研究中。
其他文献
目的:探讨长时间胰蛋白酶消化(Long-Term Trypsinization,LTT)后人表皮黑色素细胞(Melanocytes,MCs)形态,存活率,增殖率,黑色素含量,干性及成熟标记物基因和蛋白的表达等生物
木质素是一种重要的生物资源,其开发和利用具有重要的意义。本文以碱木质素的改性及其对有机物的吸附为研究背景,分别研究了碱木质素胺化改性对木质素基活性炭结构以及苯酚吸附能力的影响,脱甲基化改性、羧甲基化改性对亚甲基蓝吸附能力的影响。通过FTIR、BET、TG等仪器对改性前后碱木质素的结构、热稳定性进行了分析,并对上述改性及吸附机理进行了探讨。利用曼尼希反应对木质素进行胺化改性,以二乙烯三胺(DETA)
学位
炎症性肠病(IBD)产生的过量活性氧(ROS)和较低的pH值构成了炎症组织独特的生理环境。利用病理组织微环境特征设计智能药物输送系统是实现疾病靶向治疗、增强药物治疗效果的有
硅胶具有机械强度高、化学性质稳定、孔结构和比表面积易控制、表面易改性等优点,是目前应用最广泛的色谱固定相基质。但其表面未参与反应的游离硅羟基产生的次级效应,会导致样品出现峰形拖尾、载样量降低和死吸附等问题。本论文以多孔硅胶为基质,利用极性共聚和点击化学法发展出多种新型色谱固定相。具体如下:在硅胶表面同时键合十八烷基和环氧基团,再用小分子叔胺进行环氧开环,制备得到反相/亲水/阴离子交换混合固定相。该
学位
禽网状内皮组织增生症(Reticuloendotheliosis)是由C型逆转录病毒禽网状内皮组织增生症病毒(Reticuloendotheliosis virus,REV)引起的一系列症状的总称,主要包括矮小综合征、急性网状细胞瘤和慢性组织肿瘤;其病原是目前己知的家禽中第三种肿瘤病病原。目前用于REV检测的方法虽然灵敏度高、准确性强,但耗时长,需要专业人员和专业设备,基层推广条件不理想。为此,需
万物互联正成为信息化发展的标志,数字图像作为一种重要的信息载体,在消息传递中发挥着关键的作用。图像在存储或传输的过程中可能会被非法用户窃取,而导致图像中包含的信息泄漏。同时,与传统的文本信息相比,数字图像包含的数据量更大,这对存储资源和带宽的要求很高。因此,在图像存储或传输的过程中降低图像的数据量并确保其安全受到了极大的关注。本文在混沌系统和压缩感知的基础上,设计并实现了两种图像压缩加密算法。主要
随着社会的不断进步,高科技的发展越来越快,电子产品也备受青睐,这也就要求PI自身要有优异的高性能和广阔的应用范围,虽然传统芳香族聚酰亚胺材料有较好的机械、化学性质,但是其本身存在加工困难、颜色较深等一些缺点,这也是研究者们对聚酰亚胺材料不停改性发掘的重要原因之一。经研究,在PI骨架中引入氟原子或者含氟结构,因氟化结构本身的较强的拉电子作用,因而在很大程度上限制了自由移动的电子,而且,三氟甲基本身较
单像素成像技术借鉴了压缩感知(Compressed Sensing,CS)高通量测量的思想,将噪声压制在单像素水平,大幅度提高信噪比。尤其将该技术与光子计数技术结合应用于极弱光探测可将
有机太阳能电池材料具有种类多、易修饰、可溶液处理、可制备柔性器件等优点。在活性层材料中,N-型半导体受体材料相对稀缺,本研究将致力于开发新型的太阳能电池受体材料。(1)8-羟基喹啉金属配合物具有载流子迁移率高、稳定性好的等特点广泛的应用于光电半导体材料中,但是吸收、能级、成膜性等性质与有机太阳能电池受体材料不符合。基于此,我们对8-羟基喹啉进行修饰改性,引入了萘酰亚胺和苝酰亚胺来增大共轭体系,拓宽
经典的板块构造理论下,岩浆活动主要发育于板块边缘;然而,对于远离板块边缘的陆内造山过程及相应的岩浆响应机制还缺乏充分认识,这也正是制约板块构造登陆的关键环节。为探讨这一问题,本文报道了川西义敦地体内晚白垩世大型花岗岩基的岩石学、全岩主量元素和微量元素、锆石U-Pb年龄和锆石Hf同位素数据。雀儿山岩基和海子山岩基的主体岩性均为黑云母正长-二长花岗岩,边部具有少量暗色微粒包体及围岩捕虏体。锆石LA-I