论文部分内容阅读
转录因子是基因转录的主要调控因子。转录因子可以调节基因在细胞中的转录水平,从而影响基因在细胞中的表达。转录因子靶基因预测旨在利用转录因子与基因组间的交互数据预测可能受转录因子调控的基因,其结果对于基因表达机制研究具有重要意义。现有的转录因子靶基因预测方法主要包括基于规则、基于统计相关性和基于机器学习的方法。但这些方法仍存在一定不足。基于规则的方法忽略了转录因子的具体结合偏好,基于统计相关性和基于机器学习的方法无法有效建模多个结合位点与基因之间的调控关系。特别是现有方法难以检测远距离结合位点对基因的调控作用,其性能依赖于数据选取和特征构造,适用场景也受到数据可用性的限制。针对以上不足,本文从样本表示和算法设计两个方面入手,研究基于转录因子Ch IP-seq结合数据的靶基因预测方法。样本表示方面,提出一种基于组蛋白修饰的基因表示构建方法。该方法利用转录因子结合位点表示构建基因表示。算法设计方面,使用双向长短时记忆网络对基因转录起始点周围结合位点表示间的依存关系进行建模,捕捉多个结合位点与基因之间的潜在调控关系。在此基础上,引入自注意力机制来解决转录因子靶基因预测中的远端调控作用检测问题。在GM12878细胞中24种转录因子靶基因数据集上的实验结果显示,本文提出方法较当前性能最优的方法F1值提升了2.94-9.24%,AUC提升了1.7-7.55%。实验结果分析显示结合位点间的依存关系和远端结合位点的调控作用对于转录因子靶基因预测十分重要。考虑到同种细胞类型中不同类型转录因子在DNA上的结合模式存在相似性的特点,在上述工作基础上,本文提出了一种结合迁移学习和对抗训练的转录因子靶基因预测方法。该方法利用迁移学习和对抗训练技术从同种细胞中其他类型转录因子的靶基因数据中学习与转录因子类型无关的可迁移特征,以帮助提升目标类型转录因子的靶基因预测任务性能。实验结果显示该方法较目前性能最优方法F1值提升了1.89-9.35%,AUC提升了1.65-8.14%。实验结果验证了跨转录因子类型靶基因预测的可行性。