论文部分内容阅读
蛋白质相互作用的预测在所有的生物过程中都扮演着非常重要的角色,蛋白质之间通过相互作用形成蛋白质复合物,同时执行着不同的生物进程,包括酶的催化、免疫反应、内分泌功能和DNA复制。目前研究者们开发研究出了各种实验和计算方法来预测蛋白质相互作用,然而这些实验方法通常很耗时,且代价昂贵。近些年来,越来越多的高通量实验方法被用于蛋白质相互作用的预测,尤其是最近十几年,计算方法在预测蛋白质相互作用上的成就也越来越显著。蛋白质相互作用为探讨重大疾病的机制、疾病的治疗、疾病的预防和新药的开发提供了重要的理论基础。在利用蛋白质相互作用探讨的重大疾病中,肿瘤类的疾病算是目前威胁人类身体健康的最重要的疾病之一。为了降低肿瘤的死亡率,前期的诊断和有效的治疗至关重要,但仅仅依靠医生主观识别的肿瘤诊断,时常有误诊的可能,因而依据基因表达数据进行肿瘤的分类成为当前研究的热点。本文提出了两种新颖的预测方法,分别是基于元样本和稀疏表达对蛋白质相互作用进行预测,以及基于概率分类向量机对肿瘤进行分类。在蛋白质相互作用分类研究中,本文侧重提取出能够反映蛋白质固有内在结构的元样本,而在肿瘤分类研究中,重点则是通过将概率分类向量机和DX特征选择方法巧妙的结合,以提取出最佳数据子集对肿瘤类别进行预测。本文的研究工作主要为:1.对现有的蛋白质相互作用分类和肿瘤预测的计算方法进行了分类总结,对不同方法的理论进行了简单的阐述。2.由于传统的方法中用于训练的原始样本不具有代表性,不利于分类精度的提高,故本文提出了一种基于元样本(metasample)的蛋白质相互作用的预测方法(MSRC)。文章中通过提取具有代表性的元样本即metasample,捕获数据中固有的特殊结构,同时还可以挖掘出数据的深层次生物意义。首先运用奇异值分解(SVD)降维的方法对蛋白质相互作用训练数据集进行样本缩减得到metasample样本,然后将新的测试样本表示成metasample的线性组合,最后利用稀疏表达分类(SRC)算法对蛋白质相互作用数据集进行分类。通过在提取的数据集上进行实验,并与一些传统的分类算法相比较,结果表明提出的方法能够提高预测的准确性。3.本文结合DX打分的特征选择方法,提出了一种基于概率向量分类机(PCVM)的肿瘤基因表达谱数据分类方法。该方法首先在白血病和前列腺肿瘤数据集上进行分类,与此同时将基因表达谱数据进行排序,排序使用的是DX特征选择算法,选择出分类性能(DX分数较高)较优的一组数据作为训练数据集,然后用PCVM算法进行分类测试。为了检验方法的预测效果,我们将该方法和一些分类性能较好的算法进行了比较,同时将结合了DX特征选择方法后的结果再次进行比较,并且与其他较优的特征选择方法也进行了对比,对比分析表明该方法是有效的。