论文部分内容阅读
随着人类基因组计划的实施和推进,生命科学研究已经进入了后基因组时代,蛋白质序列数据呈几何级数增长,而在这些激增的蛋白质序列中,大部分的蛋白质序列功能和结构都还未知,通过实验的方法来测定这些蛋白质的结构和功能是一项极其巨大的工程,况且实验方法费时费力。这就迫切需要设计一些机器智能方法来预测蛋白质序列的结构与功能,为测定蛋白质结构和功能以及筛选特定功能的蛋白质提供实验指导。尽管目前已有一些这样的模型和工具在使用,但随着蛋白质序列数据的剧增,急需我们提出新的模型、发展新的理论、方法、技术和工具。本文把蛋白质看成一个序列信息已知,序列上氨基酸之间全局信息未知的不确定性系统,利用灰色模型和灰色关联度模型,构建了两个蛋白质序列特征表达的灰色离散模型:灰色伪氨基酸成分(Grey Pseudo Amino Acid Components,Grey-PseAAC)模型和灰色特异位置打分矩阵(Grey Position-Specific Scoring Matrix, Grey-PSSM)模型,并研究了灰色关联的局部支持向量机(Grey Local Support Vector Machines, Grey-LSVM)模型。在此基础上,研究了将所建立的模型应用于与生物制药相关的蛋白质筛选中,分别设计了新的DNA结合蛋白质智能识别、疟原虫分泌蛋白质识别、动物亚细胞定位多标签分类和抗菌肽功能分类等预测工具。本文的主要研究内容和创新点概括如下:1)蛋白质序列离散灰色模型的研究针对蛋白质序列的数学表达问题,研究了如何抽取蛋白质序列的内在特征,提出了表示蛋白质序列的两种离散灰色模型,在此基础上,研究了局部学习算法,提出了灰色局部支持向量机模型。蛋白质序列是用20个氨基酸代码表示的一个文字序列。因为绝大多数机器学习算法只能接受离散的向量形式的输入形式,因此要开发自动识别蛋白质结构和功能的机器,首先就需要用一个离散的向量来表示蛋白质序列。本文把蛋白质序列看成一个灰色系统,即已知蛋白质序列的表示,但蛋白质序列的全局信息未知。在利用氨基酸数字编码把蛋白质序列转换成离散的数字序列后,随后利用灰色模型GM(2,1)提取描述序列的参数作为蛋白质伪氨基酸成分,并融合蛋白质成分特征构建了Grey-PseAAC蛋白质特征表示模型;另外,在表示蛋白质进化信息的位置特异打分矩阵上,基于灰色模型构建了Grey-PSSM特征表示模型。这些模型能挖掘出蛋白质序列的全局特征,抽取蛋白质序列的家族特性和进化特征,更好地刻画蛋白质序列与其结构和功能之间的关系。同时,一种新型的基于改进的灰关联度的局部支持向量机模式识别方法得到成功地应用。2)DNA结合蛋白质智能识别研究针对DNA结合蛋白质(DNA-binding proteins,DBPs)的智能识别中存在的问题,研究了构建有效训练集、融合预测模型与蛋白质表示模型的方法,提出了一个新的识别DBPs的模型。DBPs在许多生物过程中起着重要的作用,开发一个高通量的预测器以便快速有效地识别出DNA结合蛋白质在基因注释领域有重要的科学意义。尽管在这个领域已取得一定的进展,然而还需要不断地努力去提高预测器的性能。本文构建了一个新的识别DNA结合蛋白质的预测模型:iDNA-Prot,它融合了蛋白质序列特征的灰色伪氨基酸成分表示以及随机森林(Random Forest)学习算法,还构建一个新的更加严格的训练数据集。与同类预测模型相比,iDNA-Prot在提高预测精度提高的同时,显著地提升计算速度。最后,提供了一个可以公开访问的网络计算服务器http://www.jci-bioinfo.cn/iDNA-Prot。3)疟原虫分泌蛋白质识别研究针对抗疟药物研发中的药物靶点识别问题,研究疟原虫分泌蛋白质的智能识别,提出了新的疟原虫分泌蛋白质识别模型。疟疾的诱因是由于疟原虫在宿主的红细胞中分泌了许多蛋白质,因此,这些蛋白质也就成为设计抗疟疾药物的主要靶点。为了加快抗疟药的研发过程,一个方法就是快速地识别疟原虫的分泌蛋白质,这些蛋白质可能是潜在的治疗疟疾药物或免疫药物靶点。本文利用Grey-PSSM模型表示蛋白质,构建了一个新的高性能的预测器:iSMP-Grey,它仅通过蛋白质序列信息就能识别疟原虫的分泌细胞。与其他的疟原虫分泌识别模型相比,该模型预测性能有显著的提高。最后开发了公开访问的网络预测服务器:http://www.jci-bioinfo.cn/iSMP-Grey。4)亚细胞定位多标签分类研究针对亚细胞定位中的多标签分类问题,研究了多标签分类模型与性能评价手段,构建了一个新的预测动物蛋白质亚细胞定位多标签预测模型。蛋白质可能同时存在多个亚细胞器中,或者在不同的亚细胞器中移动,蛋白质亚细胞多标签分类是一个具有挑战性的课题。蛋白质错误的亚细胞定位会引起许多疾病,因此亚细胞定位也是药物设计中主要的研究对象。本文提出了一个全面描述蛋白质特征的模型,此模型融合Grey-PSSM模型与改进的GO方法表达蛋白质序列特征向量,并采用多标签学习算法构造了一个具有多标签分类特性的动物亚细胞定位预测器:iLoc-Animal。经jackknife测试,该预测器具有较好的性能。最后开发了公开使用的网络预测服务器:http://www. jci-bioinfo.cn/iLoc-Animal。5)抗菌肽功能分类研究针对抗菌肽(Antimicrobial Peptides, AMPs)功能分类中的非平衡、多标签分类问题,研究在非平衡、多标签状态下的重采样和集成分类方法,提出了一个新的非平衡多标签预测模型。抗菌肽是进化保留的天然免疫反应物,被发现于各类的生命体中。根据抗菌肽的功能,它们被分为10中不同的类型。识别一个肽链是否为抗菌肽和判别它属于抗菌肽的哪一功能类型,对免疫药物开发有重要作用。在实验已测定的肽链中,具有不同功能的肽链的数量相差很大。同时一个肽链可能具有多种功能。在非平衡的数据集上预测抗菌肽多标签功能分类是一个新的课题。本文研究了在非平衡的多标签数据集上的重采样和集成方法,构建了新的预测模型:iAMP-Grey,它使用灰色伪氨基酸模型抽取蛋白质序列特征,用灰色关联模型对数据集重采样,最后使用多标签近邻算法进行分类。实验结果表明iAMP-Grey性能优于同类的预测器。最后,论文提出在非平衡多标签分类研究中存在的几个问题及展望。