论文部分内容阅读
RNA结合蛋白(RBPs)在生物的基因表达过程中起着非常重要的作用,RBPs通过结合RNA的位点影响成熟mRNA的形成,从而影响生物蛋白质的合成。随着分子生物学和相关技术的发展,人们逐渐认识到RBPs与RNA的结合具有特异性,也就是说特定的RBPs对某些RNA位点具有更高的亲和性。目前确定RBPs靶向位点的技术包括体外选择和RNA共免疫共沉淀,如交联免疫沉淀反应技术(CLIP),不幸的是,这些实验是冗长而困难的,都需要大量的时间和人力投入。另外,传统的统计学方法在这个领域的应用存在预测性能一般且模型的可解释性弱的特点,无法为人们提供有效指导。所幸近年来以深度学习为代表的计算机技术迅速发展和CLIP技术的成熟,为研究RBPs靶向位点识别展现新的机遇。本研究是以17种人类RBPs对应的CLIP数据为基础,利用深度学习的方法构建预测RBPs靶向位点的模型,并且对RBPs结合的motif也作出预测。本文具体的工作如下:1)数据的获取及预处理。本研究使用的数据来自iCount和DoRiNA数据库,在获取时,我们使用峰值采样获取显著的CLIP数据以尽量排除假阳性数据。然后基于序列数据的基础上,我们使用了RNA折叠等技术获取序列的其他维度数据,例如Structure二级结构数据、CrossBindinng和RegionType数据。2)仅仅在序列数据的基础上提出了 SOCN模型,SOCN模型以序列的one-hot编码为输入,利用卷积神经网络自动对序列信息进行特征抽象,避免人为的干预和选择,再经过全连接层和Softmax层,对输入信息做出分类。SOCN模型在基准数据集的平均AUC值达到0.823,性能较优于其他的模型。3)通过对SOCN的结果分析发现对于某种特定的RBPs,其分类效果欠佳。经过分析发现是因为这种RBPs倾向结合具有结构化的序列,因此在SOCN的基础上有提出多数据源的混合模型(MSM),该模型以多种数据为输入,其中除了序列信息外,还包括CrossBinding、二级结构数据和RegionType数据。最终,MSM模型在同样的数据集上克服了SOCN模型的缺陷,以平均AUC值0.90成为最佳模型,相较于SOCN、iONMF和Oli模型分别提高了 10.9%、12%、和13.9%的性能。4)鉴于MSM模型出色的性能,我们深入研究了模型参数。MSM中卷积核类似于一个motif扫描器,能识别出显著序列特征,然后将该卷积核识别的显著序列特征集转换为一个motif,并用WebLogo工具可视化。最后使用Tomtom算法将预测的motif与数据库进行比较,结果表明,78%的预测motif能以高置信度匹配数据库。