基于深度学习的增强子-启动子相互作用预测研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wushaojunbaobao3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算生物领域中,精确识别基因组中的三维组织十分重要。比如预测增强子-启动子之间相互作用(Enhancer-Promoter Interactions,EPIs)任务,对于理解基因调控、细胞分化和疾病机制具有重要的意义。近年来,基于机器学习的计算方法因其良好的预测性能被广泛应用于EPIs的预测任务中。虽然现有模型已经取得了一定的成果,但是仍然存在一些问题。例如模型无法学习到更多的序列信息;模型结构过于简单导致难以提取更多有效特征;模型无法捕捉序列之间更多的交互信息。为了解决上述问题,本文基于深度学习方法对EPIs进行预测,致力于提高EPIs预测任务的性能和训练速度,主要的贡献如下:首先,本文提出了一种基于BERT的模型EP2bert来预测EPIs。EP2bert先是基于BERT预训练来学习DNA序列的特征表示,接着分别提取启动子和增强子的特征表示,然后以此训练分类器来预测EPIs。本文使用基准数据集(六个细胞系)来评估EP2bert与现有模型的性能。实验结果表明,在一些细胞系中EP2bert优于现有模型,并且训练速度快。然后,本文又提出了一种基于深度学习和启发式匹配的模型EPI-DLMH来预测EPIs。EPI-DLMH主要分为三个步骤:首先,通过多层卷积神经网络学习序列的局部特征,接着利用双向门控循环单元网络捕捉局部特征的长期依赖性。其次,利用注意力机制来聚焦其中相对重要的特征。最后,引入启发式匹配机制来提高模型的性能。实验中同样以基准数据集评估EPI-DLMH与其他模型的性能。实验结果表明,EPI-DLMH在所有细胞系中都优于现有模型,并且在一些细胞系中提升较大。本文提出的模型都有优秀的预测性能并具有不同的优势。EP2bert模型基于BERT预训练可以学习到DNA序列的全局上下文信息,而EPI-DLMH通过混合神经网络结合启发式匹配机制可以提取更多的有效特征和序列交互信息。
其他文献
随着我国社会竞争日益激烈,硕士生群体心理健康问题也逐渐显露,改善硕士生心理健康状况迫切需要被教育工作者重视。面对新时期的硕士生群体,一方面需要更新评估手段,确保心理健康评估的准确性。心理健康双因素模型重视完全心理健康状态,既不否认降低心理疾病症状的重要性,也强调个体幸福感的提高。根据积极和消极心理这两相独立但又关系密切的维度来评估心理健康,将硕士生群体分为四类不同心理状态,进而能够研究四种人群的不
学位
个人破产制度的立法之争,在我国学术界讨论已久。2019年末新冠疫情爆发,并持续到2021年初,全民仍需警惕疫情再次大规模爆发。突然爆发的疫情对经济造成严重影响,投资、消费下滑,个人负债过重的问题浮出水面。受疫情冲击影响,个人破产立法备受关注。市场经济具有优胜劣汰的特性需要完整的破产法律制度调整。从现实的紧迫需求到法律体系的完备,个人破产经过长达几十年的理论讨论。国内首部个人破产法律文件——《深圳经
学位
微生物胞外电子传递是微生物代谢活动的基本过程之一,驱动代谢过程中的物质和能量的转化。随着微生物胞外电子传递机制研究的深入,基于生物电化学强化的技术已应用在多个领域(包括能源转化、环境修复、生物合成)。其中,电化学活性微生物是生物电化学系统的生物基础,其种类涵盖古菌、细菌、真菌。光合细菌是一类光能自养型的电化学活性微生物,能利用CO2作为碳源,实现高附加值化学品转化。如何有效调控光合细菌CO2转化过
学位
疾病一直以来都在威胁着人类的健康,研究表明微生物与疾病存在关联关系,这给理解疾病的复杂发病机理带来了新的研究视角。传统的生物实验方法发现疾病与微生物的关联存在周期长、成本高的困境。目前,已有许多研究使用机器学习算法来帮助生物实验揭示微生物与疾病的关联,但是这些算法的效果仍有待进一步提升。本文主要研究针对微生物与疾病关联预测问题的机器学习算法,研究内容概括如下:首先,本文提出一个基于多任务的神经网络
学位
工业革命以来,由于人类对化石能源的过度开发,大气中的二氧化碳(CO2)浓度迅速上升,造成了全球性气候变化等问题。而直接电催化还原CO2得到高价值化学品,不仅可以降低大气中的CO2浓度,还可以有效储存太阳能、风能等产生的间歇性电力能源。但由于CO2具有热力学以及动力学稳定性,活化CO2需要很高的反应能垒,并且提供质子源的水更容易发生动力学更快的析氢反应,严重影响了电催化还原CO2反应(CO2RR)的
学位
聚氨酯弹性体(PU)由于其优异的机械性能、耐候性以及耐磨性而得到广泛应用。链段中强极性和刚性的氨基甲酸酯基等基团组成的链段称为硬段,充当物理交联点作用提供聚氨酯材料机械强度,使材料具有柔顺性的多元醇部分为软段。因此多元化的软硬段原料选择与软硬段比例的大小对聚氨酯性能有很大的影响,如力学性能、粘结性和导热性等。此外,聚氨酯材料作为一种高分子材料,其玻璃化转变区间大,应变与应力滞后现象显著,且链段中软
学位
测序技术的不断创新与进步使得测序成本逐渐降低到临床可接受的范围,测序仪单次实验就能获得数以亿计的核苷酸序列,测序产生的大量序列信息给研究人员快速分析临床病原体样本的组成带来了便利。宏基因组测序是对目标病原体所属环境中的所有微生物进行测序,不单是对病原体本身,这样不仅克服了传统方法在特异性与效率方面的困扰,还给研究多种病原体如何对人类身体健康造成危害带来了新的见解。首先,本文选择了食源性致病菌与人类
学位
与传统导电聚合物材料相比,具有纳米结构的导电聚合物材料具有更大的比表面积、更优秀的力学性能、更优秀的电荷和离子的传输能力以及更优秀的能量储存能力。但是已有的制备具有纳米结构的二维导电聚合物膜与三维导电聚合物多孔材料的传统方法都存在着一定的不足,比如电化学聚合法无法在绝缘基底表面制备二维导电聚合物膜,使用传统的模板法制备导电聚合物水凝胶会在水凝胶内部引入绝缘组分使得其电学性能下降。近几年,很多科研工
学位
表面活性剂/聚合物复合驱用于三次采油时理论上可以结合各自单独使用时的优点,使驱油效率得到显著的提升,但两者化学性质的差异、在油藏岩石的吸附差异、驱油过程中的色谱分离使得驱油效率大打折扣。高分子表面活性剂可以同时具备聚合物的提高水溶液粘度的性质与表面活性剂的表面活性,使其有望成为复合驱的一种替代方案。本文以部分醇解的聚乙烯醇(PVA)为改性对象,在保留其表面活性的基础上以提高其水溶液粘度为目的进行研
学位
自然灾害给城市和群众带来广泛的危害,感知道路障碍信息对防灾减灾有重要价值,有利于应急管理部门采取有效应对措施,减少人员伤亡和财产损失。传统的灾后道路障碍相关工作主要是通过调查员实地调查或通过摄像头等传感器设备辅助完成,这类方法耗时耗力,不利于及时采取响应措施。物联网、大数据、人工智能的发展,推动了海量数据的产生,为感知灾后道路障碍提供了新的思路。本文基于多源空间群智数据,以数据驱动的方式对道路障碍
学位