论文部分内容阅读
蛋白质和核酸是构成生命体最为重要的两类生物大分子,蛋白质与DNA/RNA相互作用是许多细胞功能的核心,例如基因的调控与修复,蛋白翻译合成等。蛋白质与DNA/RNA的相互作用是分子生物学研究的中心问题之一。
本文通过研究PDB数据库中已有蛋白质核酸复合物结构数据,分别统计分析了蛋白质-DNA/RNA复合物以及非同源蛋白质-DNA/RNA复合物中蛋白质残基各部分与核酸残基各部分之间形成氢键结合的能力,发现在蛋白质与核酸相互作用中氨基酸的侧链部分更倾向与核苷酸分子发生氢键结合,占到70%左右;在蛋白质-DNA复合物中,核酸的磷酸基部分是最易与蛋白质发生氢键结合(占到50%以上),其次是碱基部分(大约30%左右),最不易发生结合的是糖基部分(大约17%左右),而在蛋白质-RNA复合物中,糖基部分则成为了最易结合部分(大约36%左右),磷酸基部分结合能力与糖基部分相当(大约35%左右),碱基部分则略低(大约28%左右)。此外我们分别对蛋白质-DNA/RNA及非同源性蛋白质-DNA/RNA复合物中20种氨基酸与4种碱基相互结合的能力进行了统计分析,并以与碱基结合能力的大小对20种氨基酸的结合能力进行了排序,与此同时还分析了蛋白质核酸复合物中210种蛋白质二联残基与核酸发生共同结合的情况,以及4200种蛋白质三联残基片段与核酸发生结合的情况,发现在两种不同的复合物中,二联共同结合残基与三联残基结合片段情况有着显著的差异。
蛋白核酸相互作用的机制是十分的复杂,目前对它们之间的作用机制的了解还十分有限,单纯的依靠传统方法分析是无法解决这一问题。通过生物信息学中机器学习的方法可以有助于我们理解蛋白质核酸相互作用的机制。本文中通过机器学习的方法对DNA结合位点进行了预测,首先我们对从蛋白质残基的物化信息、结构信息、进化信息等13种特征中经过局部优化处理进行筛选,最终选取最优的特征集(进化信息-PSSMs、二级结构、最低自由能、等电点-PI),利用支持向量机(SVM)与随机森林的方法(RF)分别进行预测分析,取得相近的较好预测效果,说明选取的最优特征集的确有助于分类预测分析。将我们的方法与前人SVM分类器预测效果进行比较,发现我们分类器其预测效果:准确率由70.31%上升到82.27%、敏感性由69.40上升到70.40%、特异性由70.47%上升到84.03%,说明我们选取的最优特征集较其特征集(侧链PKa值、相对分子量、疏水值)具有更好的分类效果。我们也比较我们的SVM分类器在独立测试数据集中的表现,取得相近预测效果。这说明我们的SVM分类器模型较可靠和稳定。
在对DNA结合位点预测的基础上,我们利用随机森林的方法(RF)与支持向量机(SVM)结合特征集(PSSMs、二级结构、正交分类)对RNA的结合位点进行了预测分析,预测效果达到75.23%的准确率,其Matthew相关系数为0.506,敏感性74.68%、特异性75.93%。与前人的研究结果相比各项指标平均提高4%,这也验证了利用PSSMs和二级结构信息作为特征在对DNA/RNA结合残基进行预测时,具有较好分类的效果。