论文部分内容阅读
蛋白质参与了生命活动的各个过程,例如:细胞的新陈代谢、DNA的转录和复制、信号传导等。一般情况下,蛋白质通常与其他蛋白质相互作用,以复合物的形式执行它们的功能。研究蛋白质相互作用在临床研究中具有非常重要的现实意义,该研究能帮助我们理解人类疾病机制并为疾病治疗在新方法上提供依据。虽然蛋白质相互作用预测的实验技术已经逐渐成熟,也取得了可观的研究成果。但是,生物实验方法却耗费了大量的财力和时间,预测结果也容易受实验环境和操作过程的影响,产生一定的假阳性和假阴性。为了提高蛋白质相互作用预测准确率,发展可靠的计算方法具有十分重要的现实意义。使用计算方法进行蛋白质相互作用预测的首要工作是提取蛋白质的特征信息。蛋白质的特征主要包括氨基酸序列信息、结构信息、进化信息、结构域信息、亚细胞定位信息等等。蛋白质的序列信息最基本的也是最容易获得的,它的组成决定了蛋白质的结构信息,结构信息又决定了蛋白质的功能。目前,很多研究都是根据蛋白质的序列信息。然而,单类特征并不能全面反映蛋白质的功能,影响了蛋白质相互作用预测的准确性。本文希望通过融合多类蛋白质特征,尽可能全面的反映出相互作用蛋白质的相关性特征,提高预测蛋白质相互作用的准确度。计算方法预测蛋白质相互作用的另外两个重要阶段是特征选择和分类阶段。目前常用的特征选择的方法有主成分分析(Principal Component Analysis,PCA)、拉普拉斯特征映射(Laplacian Eigenmaps,LE)、线性判别分析(Linear Discriminant Analysis,LDA)、最大间隔准则(Maximum Margin Criterion,MMC)等。分类阶段比较常用的分类算法有随机森林(Random Forest,RF)、K近邻(K-Nearest Neighbour,KNN)、支持向量机(Support Vector Machine,SVM)等。面对如此多的特征选择和分类算法,如何组合它们才能得到较好的分类精度呢?本文使用特征加权的方法融合了序列氨基酸特征和进化信息特征,充分考虑了这两类特征的可分类性。选择MMC方法进行特征选择,使得两类样本间具有较大的类间散度与较小的类内散度。最后,使用SVM对蛋白质氨基酸进行分类预测。为了验证本文方案的有效性,对所提算法进行了大量的性能对比测试。特征选择方法选用PCA算法与MMC算法进行比较;又分别建立RF、KNN、SVM训练模型。为了验证融合特征对预测性能的有利影响,分别使用氨基酸特征和进化信息特征使用不同特征选择方法和分类方法进行实验和性能比较。预测结果显示将两类特征加权融合,能够更全面诠释蛋白质的基本性能;MMC算法要比PCA算法的分类结果可靠、准确率高;在三种分类器中,SVM分类器在蛋白质相互作用的分类问题中相对具有一定的优势。