论文部分内容阅读
近几年,随着生物科学技术的飞速发展,产生出大量的生物数据。例如基因芯片技术大大加速了生物实验的进行,并随之产生了涉及数千维特征的基因表达数据,如何有效的处理和分析所产生的高维数据越来越引起研究者们的广泛关注。对于蛋白质数据,同样也面临这样的问题,为了更好地描述一个庞大的蛋白质信息数据,需要大量的高维数据和信息。但是最初研究人员提出的用来描述蛋白质序列信息的方法比较简单,得到的特征所包含的序列信息量很少,所以特征的维数不是很高,例如氨基酸的组成的特征描述方法。随着研究的不断深入,为了更好的描述蛋白质序列,表达方法中考虑了氨基酸的各种物理化学性质,即产生了伪氨基酸组成等方法。现今,随着蛋白质信息的增加以及各种蛋白质数据库的建立与完善,利用蛋白质数据库信息以及进化信息来描述蛋白质序列的特征表达方法被提出,典型的方法包括二肽组成、位置特异性分数矩阵(PSSM)、功能域组成、基因本体(GO)等。它们虽然比较全面的表达了蛋白质序列的各种结构和功能信息,但表达后相应特征的维数也随之增大,涉及到的特征维数已从几十维增加到几百维、甚至几千维。随着维度(特征数)的增加,数据之间的冗余性和不相关性都随之增大,这样会带来很多问题,例如对于某些数据分析算法,算法的计算复杂性会迅速增加。因此研究者们开始考虑有效的降低数据的冗余性及计算复杂度的理论和方法,维数约简算法即对高维数据降维的方法,是解决该问题的一种有效途径。通过降维约简了大量的冗余信息,但原数据中的重要信息被保留了下来。许多实验结果都证明采用降维方法不但使得预测系统得到简化,同时还提高了分类性能。本论文基于线性子空间降维方法来预测蛋白质数据的类别,其有效性通过模型评估方法得以验证。但是线性假设的内在不足使得线性降维方法无法揭示出数据集合中所含有的非线性结构性,而现实中所获得的真实数据集合更多的是呈现出非线性的结构,如本文研究的生物数据就是一种复杂的非线性结构数据。故为了弥补线性降维方法的不足,有效的探求数据集的内在非线性结构,线性子空间预测方法被推广到高维特征空间,开发出基于核方法的蛋白质数据分类预测算法。但是核函数不利于人的感知和直接理解,流形学习降维算法的提出弥补了它的不足。最近,产生了一种新的降维方法-最大方差映射方法。它结合了流形学习和线性降维方法的优点,采用该方法预测蛋白质的类别取得了较高的预测准确率。最后针对经典等距离映射(Isomap)降维算法的不足之处,提出了相应的改进算法MDM-Isomap,即基于最小最大距离度量准则(MDM)的降维算法。通过人脸识别实验进一步证明了该改进算法的有效性。本文的主要贡献在于:1.本文提出采用线性子空间降维方法来预测蛋白质亚细胞位置和四级结构。首先提取蛋白质数据的序列特征生成属性向量。属性向量的维数一般都很高,它能全面的描述蛋白质序列信息的同时,也带来了“维数灾难”问题,使得蛋白质亚细胞预测系统的复杂度很高。为了解决这一问题,我们采用了线性子空间的降维方法从中提取出重要的低维的特征向量,然后在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法不但使得生物预测系统得到简化,还提高了预测性能。2.考虑到线性降维方法对数据的假设过于苛刻,需要满足线性结构,而生物数据大多呈现出非线性的结构特点,所以这里将所提出的线性子空间方法推广到高维特征空间,形成基于核方法(非线性降维方法)的蛋白质亚细胞位置预测算法。经实验证明了这种方法的有效性,预测准确率高于基于线性子空间降维算法的预测方法。3.充分挖掘流形学习算法与线性降维算法的优点,以将两种方法的相结合为切入点,本文采用线性与非线性方法相结合的算法—最大方差映射方法(MVP)来预测膜蛋白的类别。它继承了线性判别分析算法(LDA)的最大化类间距离和最小化类内距离的思想,并在此基础上考虑了样本的局部几何特征,将其延伸为最大化类间的几何特征和最小化类内的几何特征。MVP方法的优点在于与传统的线性判别分析算法相比,它考虑了样本的空间几何结构信息,与基本的流形学习算法相比,它又具备判别能力,对解决分类问题的特征降维,尤其是膜蛋白的分类预测问题非常有效。4.对比了各种降维算法在蛋白质数据分类预测中的结果,总结出了各种降维算法的优点和缺点。针对等距离映射算法(Isomap)的邻域大小难以有效选取的问题提出了相应的改进算法,即基于最小最大距离度量准则(MDM)的降维算法MDM-Isomap。采用这种新的度量算法替代原始的欧式距离度量算法使得选择的近邻更加准确更能反应流形的本质特点。通过人脸识别实验也证明了这种方法的有效性,预测准确率高于经典的Isomap降维方法。5.为了进一步加速研究成果的转化及应用,建立了蛋白质亚细胞位置预测的在线生物服务网站。通过互联网,世界各地的学者可以在线使用该服务网站进行预测。