基于深度学习的转录因子靶基因预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kungm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录因子是基因转录的主要调控因子。转录因子可以调节基因在细胞中的转录水平,从而影响基因在细胞中的表达。转录因子靶基因预测旨在利用转录因子与基因组间的交互数据预测可能受转录因子调控的基因,其结果对于基因表达机制研究具有重要意义。现有的转录因子靶基因预测方法主要包括基于规则、基于统计相关性和基于机器学习的方法。但这些方法仍存在一定不足。基于规则的方法忽略了转录因子的具体结合偏好,基于统计相关性和基于机器学习的方法无法有效建模多个结合位点与基因之间的调控关系。特别是现有方法难以检测远距离结合位点对基因的调控作用,其性能依赖于数据选取和特征构造,适用场景也受到数据可用性的限制。针对以上不足,本文从样本表示和算法设计两个方面入手,研究基于转录因子Ch IP-seq结合数据的靶基因预测方法。样本表示方面,提出一种基于组蛋白修饰的基因表示构建方法。该方法利用转录因子结合位点表示构建基因表示。算法设计方面,使用双向长短时记忆网络对基因转录起始点周围结合位点表示间的依存关系进行建模,捕捉多个结合位点与基因之间的潜在调控关系。在此基础上,引入自注意力机制来解决转录因子靶基因预测中的远端调控作用检测问题。在GM12878细胞中24种转录因子靶基因数据集上的实验结果显示,本文提出方法较当前性能最优的方法F1值提升了2.94-9.24%,AUC提升了1.7-7.55%。实验结果分析显示结合位点间的依存关系和远端结合位点的调控作用对于转录因子靶基因预测十分重要。考虑到同种细胞类型中不同类型转录因子在DNA上的结合模式存在相似性的特点,在上述工作基础上,本文提出了一种结合迁移学习和对抗训练的转录因子靶基因预测方法。该方法利用迁移学习和对抗训练技术从同种细胞中其他类型转录因子的靶基因数据中学习与转录因子类型无关的可迁移特征,以帮助提升目标类型转录因子的靶基因预测任务性能。实验结果显示该方法较目前性能最优方法F1值提升了1.89-9.35%,AUC提升了1.65-8.14%。实验结果验证了跨转录因子类型靶基因预测的可行性。
其他文献
在大数据的时代背景下,海量数据的增长,大数据处理框架和深度学习平台不断演进,以更加高效地从海量数据中获取得到有用信息。Apache Spark作为大规模数据处理的快速通用计算
目前,随着建筑业的不断发展,其已经成为了当今社会发展过程中的重要领域之一,而建筑工程的施工单位必须要保证建筑的质量符合相关标准要求以及业主要求。不过近些年来,建筑工
SiC陶瓷本身具有密度低、热导率高、热膨胀系数小、常高温力学性能好等一系列优异特性,被广泛应用于航空航天、空间光学、微电子、核能、运输等领域。然而,由于受到高性能陶
近年来,发光二极管(LEDs)因其优异的性能在照明领域大放异彩,成为新一代的照明光源。众所周知,商用的白光LED是通过将荧光粉与蓝光或近紫外芯片结合而得到的。在后期使用过程中
近几年,物联网迅速发展,大规模应用于智能制造、智能家居、智慧医疗等行业,给用户生活带来了极大的便利,但也引入了很多物联网环境下特有的安全隐患,对用户家庭安全构成了严
最近几年,云服务得到了快速发展,各大互联网巨头也在着力布局云服务为各大开发商提供便利、快速、高效的运行环境。开发商(数据拥有者)需要将它们的数据外包到云服务器上,其
国内外对于海底打捞物出土阻力机理分析的研究较少,尤其是在近年来航天科技的飞速发展下,航天器件落入海底的时间偶有发生,这方面的研究空白对航天器件的打捞工作造成了很大
随着科学技术的发展以及医疗水平的进步,外骨骼机器人在人类的生活中所扮演的角色越来越重要。在医疗康复领域,外骨骼机器人能够为有运动功能障碍的人群提供身体支撑和运动引
在现代的机械生产制造过程中,模具的失效大多数是从表面开始的,如磨损、氧化、腐蚀等,如何提高模具表面的的耐磨性、抗氧化性和耐腐蚀性等引起了我们的广泛关注。通过混粉准
输油管道是石油的主要运输途径之一,主要敷设的区域大多在偏僻的地区,容易受到人类活动、动植物运动、灾害性天气、地质灾难等非法入侵的危害,输油管道的日常维护和安全保障