论文部分内容阅读
蛋白质-核酸相互作用的发生,对于细胞中的很多生命现象都有重要的维持和促进作用。因此,蛋白质-核酸相互作用机理的研究,对于我们了解诸如细胞遗传信息的传递途径、细胞的新陈代谢,细胞分化、增值和衰老、细胞的信号转导方式等重要的细胞内活动,都有重要的理论意义。在蛋白质-核酸相互作用中,蛋白质中的核酸结合位点对于分子间的相互作用起到联系和桥梁的作用。因此对于核酸结合位点的识别,使我们能够进一步从残基和原子水平上对蛋白质-核酸相互作用的方式和细节进行深入了解。在蛋白质中核酸位点的识别中,传统的实验手段在具有很高的精确度的同时,也存在着实验技术复杂、周期长、成本较高等缺点。所以需要发展出其他的方法来确定蛋白质中的核酸结合位点。基于机器学习的计算方法就是在这样的背景下提出来的。通过使用从蛋白质序列和结构中提取得到的特征信息,可以对蛋白质中的残基进行编码,得到表征蛋白质序列残基的特征向量。在这些特征向量的基础上,可以使用机器学习算法建立蛋白质中的核酸结合位点预测模型,从而预测蛋白质序列中的核酸结合位点。本论文的工作具体包括以下几个方面:本论文的第一部分首先论述了蛋白质-核酸的相互作用方式和复合物在细胞中具有的生物功能。接下来总结了已经发展出来的RNA结合位点预测模型和DNA结合位点预测模型。在这些模型的构建中,常用的机器学习算法包括支持向量机、人工神经网络、贝叶斯方法和随机森林等。在这些方法中使用了包括蛋白质序列信息和蛋白质结构信息作为输入特征训练模型,取得不错的成果。最后,论述了现存方法中存在的问题,包括(1)模型泛化能力不高;(2)数据集中正负样本数据不平衡的现象;(3)模型的预测能力差的问题。针对上述问题,我们提出了一系列的有针对性的解决方法,结果表明我们提出的方法具有较好的问题解决能力。论文接下来的第二、三部分对于上述解决方法进行了具体的阐述。本论文的第二部分提出了基于随机森林算法的RNA位点识别模型。在这个模型中,使用了两种三种蛋白质序列特征和两种蛋白质结构特征作为特征向量。然后使用滑动窗口方法和光滑窗口方法对特征向量进行编码,使特征向量的维数和表征RNA结合位点的信息得到扩充。为了解决数据不平衡现象和模型预测准确率不高的问题,我们使用了合成正样本方法和一致性建模方法来构建RNA结合位点的分类模型。通过对测试集的预测结果可以看到,我们提出的RNA位点的预测模型具有较好的外部预测能力,对测试集序列中的RNA结合位点的预测准确率比较高。接下来我们使用两种方法对特征向量中的特征进行了打分和排序,对其中的重要特征的种类和数量进行了分析。得到蛋白质序列的位点特异性得分矩阵特征在RNA位点的识别中占有重要的作用。最后,我们和其他的RNA位点预测方法在测试集上进行了对比,结果也说明对于给定的测试集,我们提出的基于随机森林方法的预测准确率比较高。本论文的第三部分中,构建了基于随机森林算法的DNA位点预测模型。在该方法中,使用了五种蛋白质序列和结构信息作为输入特征。这些特征包括,蛋白质序列的组成特征,残基的物理化学性质,预测二级结构特征,可及化表面特征和B因子特征,使用这些特征来表征蛋白质序列中的残基。在其他模型构建方法的基础上,这些方法包括对特征向量使用窗口方法,在解决数据不平衡时,使用SMOTE方法和一致性建模方法,我们构建了对于测试集中DNA结合位点的预测准确度比较高的模型。最后,对特征向量中的重要特征,我们使用计算信息增益的方法,对特征进行排序,提取150个重要性特征。在这些重要特征的基础上,重新建立模型并预测测试集,也得到了比较好的预测结果。说明我们选取的特征具有比较好的代表性,能够有效地识别蛋白质序列中的DNA结合位点。在论文的最后一部分,对于提出的蛋白质中的核酸结合位点的预测模型进行了总结和展望。同时,也对基于机器学习方法的蛋白质序列的核酸结合位点的预测方法的发展方向进行了总结,指出更多的核酸结合蛋白质结构和序列的获得,是得到有效特征和提高模型准确率的关键途径。