论文部分内容阅读
蛋白质和DNA是组成生命体复杂结构和功能的重要生物大分子。在各种生命活动中,它们之间的相互作用,即蛋白质-DNA相互作用,都有着相当重要的作用。而在蛋白质-DNA相互作用中,少部分氨基酸残基贡献了绝大部分的结合自由能,这部分残基被称为热点残基。研究蛋白质-DNA复合物结合机制和稳定性的一个关键就是识别其相互作用界面上的热点残基问题。丙氨酸扫描作为一种分析蛋白质表面上的特定氨基酸残基功能的生物实验技术,已经广泛应用于鉴定蛋白质-DNA中残基的结合自由能。这种实验技术将蛋白质-DNA界面上的氨基酸残基突变成丙氨酸,然后通过计算自由能的变化来识别热点残基。但是通过生物实验方法鉴定界面热点残基代价昂贵、耗时耗力,因此有必要发展识别蛋白质-DNA相互作用界面热点残基的计算方法。已有的计算方法大多使用基于分子动力学模拟的方法计算蛋白质-DNA结合自由能,进而预测热点残基。这类方法在构建预测模型时容易受到部分蛋白质结构的限制,并且预测效率也较低。而基于机器学习的计算方法则可以有效地克服这些不足之处。本文的主要工作如下:1.提出了基于一般性生物学特征的蛋白质-DNA热点残基预测方法。我们合并dbAMEPNI和SAMPDI两部分数据并筛选得到了64个蛋白质-DNA复合物共214个蛋白质-DNA界面残基,其中150个作为训练集,64个作为测试集。我们按照序列、结构、网络和溶剂可及表面积四个类别一共提取了114维特征。在比较分析了四种不同的特征选择方法后,提取了 10个最优特征。接着分别使用支持向量机、朴素贝叶斯、K近邻算法和随机森林来构建模型。并根据比较结果,最终使用支持向量机在10个特征上构建了预测模型PrPDH(Prediction of Protein-DNA binding Hot spot)。在训练与测试数据集上的比较结果表明,PrPDH预测性能相比其他方法性能更好,在训练集上的F1和AUC分别是0.721和0.803,在测试集上的F1为0.706,AUC为0.764。PrPDH的在线预测网址为http://bioinfo.ahu.edu.cn:8080/PrPDH/。2.提出了基于不同状态邻居信息的蛋白质-DNA热点残基预测方法。从蛋白质-DNA结合机制出发,在已有的10个最优特征基础上,分析蛋白质-DNA界面残基在结合和非结合DNA状态下的氢键、溶剂可及表面积、深度和突出指数特征,计算残基在作为供体时结合DNA链上相邻核苷酸产生的氢键数目,同时引入界面邻居残基的信息,改进溶剂可及表面积和残基深度、突出指数特征的编码方式,从而体现该残基在两种状态下的特征变化村相对于邻居残基的变化强度。最终共得到41维特征。然后使用基于支持向量机的递归特征消除法(SVM-RFE)并根据特征之间的相关性去除冗余并选择8维特征,结合支持向量机构建PrPDH-V2模型。通过模型的性能比较表明,PrPDH-V2相比PrPDH和其他方法在性能上有着较大的提升,在训练集上的F1为0.787,AUC为0.871,在测试集上的F1和AUC分别是0.755和0.852。实验结果表明,这种改进的特征编码方式能够有效识别蛋白质-DNA相互作用界面上的热点残基。