论文部分内容阅读
基因和表型之间关系的确定是分子生物学研究的核心目标之一。前期的研究结果表明,决定相同或相似性状的基因在蛋白质相互作用网络中的关联性较强。基于这个假设,研究者们提出了一系列以网络为基础的方法以确定基因和表型之间的关系。在这些不同的算法中,基于扩散谱的方法表现出了较好的预测效果。本文提出了一种基于扩散谱的新方法来确定可能的致病基因。对某种特定疾病而言,其扩散谱定义为PPI网络中候选致病基因的稳态分布。通过比较候选致病基因与相应疾病之间的扩散谱相似性,就可以对候选的基因进行排序。最后,我们对训练集中的基因(预留的作为训练集的基因和随机抽取的基因)进行留一交叉验证来检验方法的稳健性。结果表明所提方法相比其它基于扩散谱的方法表现出了更好的预测效果。除此之外,我们将该方法应用于预测包括前列腺癌和阿尔兹海默病在内的16种多因子疾病以进一步验证所提方法的泛化能力,结果表明该方法所预测出的致病基因与已有的科学文献报道具有很强的一致性。研究表明,对多种信息数据(表型相似性数据、疾病和基因扩散谱相似性数据)的整合可以更有效的帮助人们确定候选致病基因。细菌蛋白的亚细胞分布信息对蛋白质功能预测、基因组功能注释及药物设计等方面发挥着至关重要的作用。在本研究中,我们提出了一种新的方法来预测细菌蛋白的亚细胞分布特性。该类方法整合基于位置信息的分数矩阵的特征信息及基因功能注释信息,进而进行分布特性预测。随后采用一种基于线性核函数的支持向量机后向特征选择方法对整合后的特征向量进行排序并筛选出最优特征向量。最后,基于上述特征选择方法挑选出来的最优特征向量,我们使用了支持向量机方法对蛋白质亚细胞分布特性进行预测。为了检验所提方法的稳健性及泛化能力,我们进一步使用了与训练集具有低相似性的三个数据集(M638,Gneg1456,Gpos523)进行重叠交叉验证。对于这三类数据集的准确率分别达到94.98%,93.21%和94.57%。这比之前方法在准确性方面提高了1.8%-10.9%。综合比较的结果表明,本文所提的方法在预测细菌蛋白的亚细胞分布特性方面表现出了很大的优势,可以作为一种有效的工具进行相应的预测研究。