论文部分内容阅读
随着高通量测序技术的迅速发展,产生了大量的异源生物组学数据。这些数据对于揭示多种重要的生物过程有着重要的意义。蛋白质是组成生物体细胞的重要成分,同时对诸多复杂的生命活动起着调控作用。一类蛋白质通过绑定DNA,而确保DNA顺利转录成RNA,使遗传信息得以顺利传递;在DNA转录形成RNA后,另一类蛋白质会在特定靶点上绑定RNA,以便对可变剪接体、翻译等转录后的生物过程进行调控。蛋白质-RNA相互作用预测是一个非常重要的生物信息学问题,已引起大家的关注。该问题既可以利用单源数据,也可以融合多种数据源,利用整合分析的计算方法去做预测。目前,研究者已经开发出一系列的比较成熟的基于单一数据的预测方法。然而,该过程受到多种因素的影响,因而,在RNA上寻找蛋白质绑定位点需要整合多种组学数据,才有可能对靶点序列做出更为正确的判别。鉴于生物过程本身的复杂性和基于数据的模型所固有的局限性,诸多的计算方法都只关注了问题的一个层面,有的甚至优缺点互补。因此,为了全面地理解蛋白质-RNA交互作用的功能,还需要更加有效的方法。 本文以蛋白质-RNA交互作用预测问题作为出发点,对该问题进行了深入探讨和研究,利用多种异源数据,设计了一个整合异源数据的深度学习预测模型,实验表明该方法具有多方面的优越性。具体内容如下: 首先,对于序列k-met表示的高维和稀疏特点,提出基于重复软最大化(Replicated softmax)模型进行编码降维的策略。重复软最大化方法是一个概率图模型,它对可见层和隐含层变量进行联合概率建模。该模型既可以处理高维离散数据,也可以处理连续数据;并且对输入数据的维数没有限制,因此可以处理变长数据,并且能从随机初始值出发,有效地提取数据中的固定模式。通过实验数据对降维的效果进行检验和评价,结果说明利用重复软最大化模型降维有利于蛋白质-RNA交互作用预测效果的提升。 对于异源数据稀疏性问题,提出基于深度学习模型整合多种数据的预测方法(DeepRBP)。将整合数据源下具有预测效力的模型与其他四种方法进行比较,结果显示基于深度学习的模型(DeepRBP)在31组蛋白实验数据中的30组都有最好的表现。与仅利用序列信息的深度学习模型相比,DeepRBP具有更大的灵活性,能够整合多种源数据做出精确预测;和基于矩阵分解的方法相比,DeepRBP可以更好地处理高维和稀疏数据。 基于深度学习的模型(DeepRBP)整合了多种数据源识别与蛋白质-RNA交互作用相关的重要特征,具有更大的灵活性。这些数据源既包含了RNA序列和基因组的特征,又包含了RNA的结构信息,同时还整合了多蛋白共绑定的信息,充分利用了高通量测序技术发展带来的便利性。