论文部分内容阅读
目的:随着生物学研究的不断推进,长链非编码RNA(long non-coding RNA,lncRNA)已被证实能够与其他生物分子尤其是蛋白编码基因(protein-coding gene,PCG)发生相互作用,从而在生命体的正常活动以及疾病的发生发展中发挥着不可或缺的调节作用。探索lncRNA-PCG相互作用关系是揭开生物体奥秘的重要一环,然而大部分lncRNA-PCG关系及其内在机制仍不明确。目前,需要大量人力物力的生物学实验显然无法满足复杂研究的需要,生物信息学方法已经成为大范围预测lncRNA-PCG关系的主要手段之一。本研究通过分析多组学数据,从不同层面上收集真实lncRNA-PCG关系与随机关系的特征差异及规律,并将各特征纳入到机器学习算法中,开发一种新的预测模型,用于推断lncRNA-PCG关系。
方法:本研究从数据库中获取到307对实验验证的lncRNA-PCG关系,并构建2种随机关系集合(完全随机集合和部分随机集合),通过分析多组学数据,包括转录因子的ChIP-seq数据、表观遗传修饰的ChIP-seq数据、差异表达谱、miRNA靶标数据、基因共表达网络、lncRNA-RBP相互作用关系、lncRNA-DNA三螺旋结构等,发现真实关系与随机关系的特征差异,并将特征指标纳入到3种机器学习算法(支持向量机、logistic回归和随机森林)中,从中选择效能最佳的模型构建lncRNA-PCG关系预测器。最后,从TCGA数据库中的大肠癌数据中分别选择差异表达的lncRNA和PCG,使用本研究中构建的模型预测lncRNA-PCG关系,并阐释可能存在的生物学机制。
结果:当完全随机集合作为阴性集合时,logistic回归、SVM、随机森林算法的平均AUC值分别达到0.805、0.793和0.831。当部分随机集合作为阴性集合时,三种算法的平均AUC值分别达到0.709、0.683和0.767。在任意一种情况下,随机森林算法构建的模型效能最佳。当完全随机集合作为阴性集合时,模型AUC值总大于当部分随机集合作为阴性集合时的AUC值。除此之外,3折交叉验证的结果显示模型的AUC值波动不大,稳定性较好。最后,在个案研究中预测到一些可能存在的lncRNA-PCG关系,预测为阳性的结果中已有文献报道的比例显著高于预测为阴性的结果(P-value<0.05)。
结论:本研究构建的预测模型通过整合多组学数据,能够广泛地在多个层面上推断lncRNA-PCG相互作用的可能性,且模型性能和稳定性俱佳,这表明利用多组学数据预测lncRNA-PCG关系是一个可行方案。使用完全随机集合和部分随机集合作为阴性集合时,AUC值的差异表明lncRNA注释程度的差异可能会对模型效能产生影响。本研究构建的模型在大肠癌数据中的应用也表明了此模型具有一定的生物学实用性。
方法:本研究从数据库中获取到307对实验验证的lncRNA-PCG关系,并构建2种随机关系集合(完全随机集合和部分随机集合),通过分析多组学数据,包括转录因子的ChIP-seq数据、表观遗传修饰的ChIP-seq数据、差异表达谱、miRNA靶标数据、基因共表达网络、lncRNA-RBP相互作用关系、lncRNA-DNA三螺旋结构等,发现真实关系与随机关系的特征差异,并将特征指标纳入到3种机器学习算法(支持向量机、logistic回归和随机森林)中,从中选择效能最佳的模型构建lncRNA-PCG关系预测器。最后,从TCGA数据库中的大肠癌数据中分别选择差异表达的lncRNA和PCG,使用本研究中构建的模型预测lncRNA-PCG关系,并阐释可能存在的生物学机制。
结果:当完全随机集合作为阴性集合时,logistic回归、SVM、随机森林算法的平均AUC值分别达到0.805、0.793和0.831。当部分随机集合作为阴性集合时,三种算法的平均AUC值分别达到0.709、0.683和0.767。在任意一种情况下,随机森林算法构建的模型效能最佳。当完全随机集合作为阴性集合时,模型AUC值总大于当部分随机集合作为阴性集合时的AUC值。除此之外,3折交叉验证的结果显示模型的AUC值波动不大,稳定性较好。最后,在个案研究中预测到一些可能存在的lncRNA-PCG关系,预测为阳性的结果中已有文献报道的比例显著高于预测为阴性的结果(P-value<0.05)。
结论:本研究构建的预测模型通过整合多组学数据,能够广泛地在多个层面上推断lncRNA-PCG相互作用的可能性,且模型性能和稳定性俱佳,这表明利用多组学数据预测lncRNA-PCG关系是一个可行方案。使用完全随机集合和部分随机集合作为阴性集合时,AUC值的差异表明lncRNA注释程度的差异可能会对模型效能产生影响。本研究构建的模型在大肠癌数据中的应用也表明了此模型具有一定的生物学实用性。