论文部分内容阅读
自从人类基因组计划实施以来,各种类型的生物数据每年都呈指数级的增长,这样海量的数据需要从中挖掘出有用的知识来帮助人们进一步解释生命现象。生物信息学就是这样一门应运而生的学科。生物信息学中出现的大规模数据给常规的计算机算法提出了挑战。由于生物系统本质上的复杂性及人们对分子层面上生命组织理论的缺乏,传统的算法越来越不适应和解决生物信息学中出现的问题。基于数据的机器学习是现代信息技术的重要研究内容,机器学习的目的是期望能从数据中自动地获得相应的理论,其主要任务是从有限的观测样本数据中寻找出应用经典理论难以推导出的规律性的东西,进而将这种规律扩展到研究对象的全局,并对事物的发展进行预测和推理。因此,机器学习方法形成了与常规方法互补的可行的方法。机器学习使得利用计算机从海量的生物信息中提取有用知识并发现知识成为可能。因而,生物信息学与机器学习相结合也就成了必然。
蛋白质同源检测是生物信息学中的一个分支,是指利用蛋白质序列间的同源性将新测定的蛋白质序列分类到已知结构和功能的蛋白质家族中去,利用已知蛋白质家族的结构和功能来预测新测定蛋白质的结构和功能。近年来,出现了很多新的蛋白质同源检测的方法和算法,并取得了一定的成功。尽管如此,跟任何新的技术一样,现有的蛋白质同源检测方法还有很多不足,尤其是在蛋白质序列之间的相似性很低的情况下(也就是远程同源检测),现有方法的表现不是很令人满意。本文正是以此为出发点,针对蛋白质同源检测,尤其是远程同源检测问题进行了研究,并结合机器学习提出了相应的新算法。本文的工作主要包括以下几个方面:
1)提出了一种基于马尔科夫随机场的双序列比对算法。马尔科夫随机场(MarkovRandomField,简称为MRF)理论是模式识别中用于计算局部统计相关的一种理论。利用MRF理论,本文提出了一种新的马尔科夫双蛋白质序列比对算法(Markovpairwiseproteinsequencealignment,MPPSA)。由于该方法考虑了相邻氨基酸之间的局部相互作用,所以取得了较好的效果。
2)提出了一种混合GA/SVM蛋白质同源检测方法。本文描述了一种基于蛋白质组成和模体(motif)的混合GA/SVM蛋白质同源检测方法。首先,利用motif和蛋白质组成,每条蛋白质序列被转换成一个固定维数的向量。然后,我们将向量利用主分量分析(PrincipalComponentAnalysis,PCA)投影到低维空间中。这样,每个向量就由这些向量的协方差矩阵的本征向量的组合来描述。接着,通过遗传算法(GeneticAlgorithm,GA)从特征空间中提取具有生物意义的特征子集。同时,遗传算法还优化了支持向量机的调节参数。最后,基于所选择的特征子集和优化后的调节参数,支持向量机将蛋白质序列分类到相应的家族中去。与现有的方法,比如PSIBLAST和SVM-pairwise相比,我们提出的算法具有较好的性能。
3)提出了一种基于亲水模块的蛋白质同源检测方法。亲水性是蛋白质的一种重要的物理化学性质。本文根据氨基酸的亲水性强弱将其划分为不同的亲水模块。首先,利用蛋白质序列中亲水模块的出现频率,每条蛋白质序列被转换为一个特征向量。利用所生成的特征向量,支持向量机将蛋白质序列分类到已知蛋白质家族中去。与现有的方法相比,我们所提出的算法能更好的识别属于同一家族的蛋白质序列。
4)构造了一种具有动态学习率的蛋白质序列混合模型聚类算法。在本文中,蛋白质序列所生成的向量可以看作是由某个未知的混合概率密度函数所生成的。最近提出的RPEM算法能同时在学习过程中自动确定混合数目和估计模型参数。但是,RPEM算法的性能对学习率的选择非常敏感,如果学习率选择不当的话,RPEM算法的性能就会很差。因此,本文提出了一种能在学习过程中动态调整学习率的RPEM-DLR算法。在给定初始学习率的情况下,该算法能自动在学习过程中调节学习率,加快了算法的收敛速度,提高了算法性能。本文利用实际的蛋白质序列数据验证了算法的可行性。