论文部分内容阅读
蛋白质-核酸相互作用在基因表达和调控等诸多生命过程中发挥着极其重要的作用,利用计算方法准确识别蛋白质中与核酸发生物理接触的区域有助于阐明这类相互作用机制。目前大多数算法仅独立地采用特征驱动方法或模板方法预测核酸绑定残基,但是其预测精度仍有待提高。针对现有算法的不足,本研究通过联合上述两种策略,分别构建了基于结构信息和基于序列信息的混合算法。RBRDetector算法结合蛋白质结构的局部相似性和全局相似性构建RNA绑定残基的预测模型。具体而言,基于蛋白质局部相似性,开发了一种特征驱动的预测方法。该方法抽取了残基的进化保守性、局部几何指标、网络拓扑指标等属性,并将这些属性联合残基的局部微环境组成支持向量机的输入特征。同时,利用RNA绑定蛋白的全局相似性,开发了一种基于结构比对的模板方法。该方法将查询蛋白与模板库中的RNA绑定蛋白质进行结构比对,选择最优的模板构建预测的蛋白质—RNA复合物,进而利用该复合物识别相应的绑定区域。最后,通过分段函数将上述两种预测方法的结果进行联合,使混合算法的预测精度大幅提高。通过对不同类型的数据集(如绑定结构、非绑定结构、理论模型等)进行测试,结果显示RBRDetector算法显著优于现有同类算法。虽然利用结构信息能够较为精确地识别核酸绑定残基,但是现有蛋白质结构数据的匮乏限制了其适用范围,而基于序列信息的预测方法则具有更广泛的应用价值。为此,本研究开发了依据序列信息识别核酸绑定残基的混合算法SNBRFinder。该算法采用基于隐马可夫模型的序列谱比对方法寻找查询序列的最优模板,并将位置特异性打分矩阵和互补的序列特征通过序列微环境构成特征组合,最后结合这两种方法的输出结果作为预测值。为了验证该算法的有效性,本研究运用广泛的核酸绑定蛋白数据集进行了严格的测试。实验结果显示模板方法的预测性能与结构比对方法相当,额外序列特征的加入能有效提高特征驱动方法的预测效果。利用上述两种方法的互补性,混合算法SNBRFinder展现出更好的核酸绑定残基识别能力。