高维生物数据的分类与预测研究

来源 :上海交通大学 | 被引量 : 23次 | 上传用户:xuthusboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着生物科学技术的飞速发展,产生出大量的生物数据。例如基因芯片技术大大加速了生物实验的进行,并随之产生了涉及数千维特征的基因表达数据,如何有效的处理和分析所产生的高维数据越来越引起研究者们的广泛关注。对于蛋白质数据,同样也面临这样的问题,为了更好地描述一个庞大的蛋白质信息数据,需要大量的高维数据和信息。但是最初研究人员提出的用来描述蛋白质序列信息的方法比较简单,得到的特征所包含的序列信息量很少,所以特征的维数不是很高,例如氨基酸的组成的特征描述方法。随着研究的不断深入,为了更好的描述蛋白质序列,表达方法中考虑了氨基酸的各种物理化学性质,即产生了伪氨基酸组成等方法。现今,随着蛋白质信息的增加以及各种蛋白质数据库的建立与完善,利用蛋白质数据库信息以及进化信息来描述蛋白质序列的特征表达方法被提出,典型的方法包括二肽组成、位置特异性分数矩阵(PSSM)、功能域组成、基因本体(GO)等。它们虽然比较全面的表达了蛋白质序列的各种结构和功能信息,但表达后相应特征的维数也随之增大,涉及到的特征维数已从几十维增加到几百维、甚至几千维。随着维度(特征数)的增加,数据之间的冗余性和不相关性都随之增大,这样会带来很多问题,例如对于某些数据分析算法,算法的计算复杂性会迅速增加。因此研究者们开始考虑有效的降低数据的冗余性及计算复杂度的理论和方法,维数约简算法即对高维数据降维的方法,是解决该问题的一种有效途径。通过降维约简了大量的冗余信息,但原数据中的重要信息被保留了下来。许多实验结果都证明采用降维方法不但使得预测系统得到简化,同时还提高了分类性能。本论文基于线性子空间降维方法来预测蛋白质数据的类别,其有效性通过模型评估方法得以验证。但是线性假设的内在不足使得线性降维方法无法揭示出数据集合中所含有的非线性结构性,而现实中所获得的真实数据集合更多的是呈现出非线性的结构,如本文研究的生物数据就是一种复杂的非线性结构数据。故为了弥补线性降维方法的不足,有效的探求数据集的内在非线性结构,线性子空间预测方法被推广到高维特征空间,开发出基于核方法的蛋白质数据分类预测算法。但是核函数不利于人的感知和直接理解,流形学习降维算法的提出弥补了它的不足。最近,产生了一种新的降维方法-最大方差映射方法。它结合了流形学习和线性降维方法的优点,采用该方法预测蛋白质的类别取得了较高的预测准确率。最后针对经典等距离映射(Isomap)降维算法的不足之处,提出了相应的改进算法MDM-Isomap,即基于最小最大距离度量准则(MDM)的降维算法。通过人脸识别实验进一步证明了该改进算法的有效性。本文的主要贡献在于:1.本文提出采用线性子空间降维方法来预测蛋白质亚细胞位置和四级结构。首先提取蛋白质数据的序列特征生成属性向量。属性向量的维数一般都很高,它能全面的描述蛋白质序列信息的同时,也带来了“维数灾难”问题,使得蛋白质亚细胞预测系统的复杂度很高。为了解决这一问题,我们采用了线性子空间的降维方法从中提取出重要的低维的特征向量,然后在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法不但使得生物预测系统得到简化,还提高了预测性能。2.考虑到线性降维方法对数据的假设过于苛刻,需要满足线性结构,而生物数据大多呈现出非线性的结构特点,所以这里将所提出的线性子空间方法推广到高维特征空间,形成基于核方法(非线性降维方法)的蛋白质亚细胞位置预测算法。经实验证明了这种方法的有效性,预测准确率高于基于线性子空间降维算法的预测方法。3.充分挖掘流形学习算法与线性降维算法的优点,以将两种方法的相结合为切入点,本文采用线性与非线性方法相结合的算法—最大方差映射方法(MVP)来预测膜蛋白的类别。它继承了线性判别分析算法(LDA)的最大化类间距离和最小化类内距离的思想,并在此基础上考虑了样本的局部几何特征,将其延伸为最大化类间的几何特征和最小化类内的几何特征。MVP方法的优点在于与传统的线性判别分析算法相比,它考虑了样本的空间几何结构信息,与基本的流形学习算法相比,它又具备判别能力,对解决分类问题的特征降维,尤其是膜蛋白的分类预测问题非常有效。4.对比了各种降维算法在蛋白质数据分类预测中的结果,总结出了各种降维算法的优点和缺点。针对等距离映射算法(Isomap)的邻域大小难以有效选取的问题提出了相应的改进算法,即基于最小最大距离度量准则(MDM)的降维算法MDM-Isomap。采用这种新的度量算法替代原始的欧式距离度量算法使得选择的近邻更加准确更能反应流形的本质特点。通过人脸识别实验也证明了这种方法的有效性,预测准确率高于经典的Isomap降维方法。5.为了进一步加速研究成果的转化及应用,建立了蛋白质亚细胞位置预测的在线生物服务网站。通过互联网,世界各地的学者可以在线使用该服务网站进行预测。
其他文献
应用地震波速CT和吸收CT相结合的方法对山东省招远市界河金矿隐伏采空区进行了联合探测研究.波速CT是利用地震波走时资料反演地质体内部波速结构;吸收CT是通过能量变化观测反演
背景:目前,在中国肺癌是发病率和死亡率位居第一的恶性肿瘤。针对晚期的非小细胞肺癌(NSCLC)治疗,分子靶向治疗成为研究热点,其中以EML4-ALK融合基为靶点的靶向治疗尤其备受
通过丰水期、平水期和枯水期3个时期对南明河的浮游植物进行了调查,共鉴定出浮游植物143种,隶属于8门10纲21目34科67属.调查显示:2005~2006年浮游植物以绿藻居多,其次是硅藻和
以SUPCON JX-300系统为例,介绍了正确进行集散系统组态,实现无平衡无扰动切换的组态方法。
利用低空无人机倾斜摄影技术快速获取多角度影像数据,通过自动实景三维建模和三维模型立体量测技术,从而实现免外业调绘的高精度大比例尺地形图测绘。本文通过具体生产实验,
我国保险投资经历了从无序到规范,从单一到多元的过程。近年来,随着我国保险投资渠道的逐渐扩宽,多元化投资框架已经初步形成。投资渠道的多元化在给保险公司带来收益的同时,
本文在一内径为265mm,高为565mm的全尺寸喷射回流混合器冷态模型上对气流动力场特性进行了试验研究。
以-萘酚和对氨基苯磺酸重氮盐的快速串联联反应作为工作反应,研究了搅拌槽内加粒方式对反应选择性的影响。结果发现物料液液以下在对浆叶,离浆叶距离较近以用多孔管分散加在桨叶
目的 了解青年学生的饮食及营养现状。 方法 采用称量法调查岳阳某学院 4 5 0名青年学生男女 5 d的全部食物 ,参考《每日膳食中营养素供给量》提供的标准进行评价。 结果
我国一直大力支持并推动野生动物人工繁育,还设立了相关人工繁育的法律制度。但随着人工繁育技术的成熟,大量成功繁育的野生动物开始进入市场,导致法律规定与司法实践的冲突