蛋白质结构类与功能预测及物种亲缘分析问题的非线性方法研究

来源 :湘潭大学 | 被引量 : 1次 | 上传用户:calvinly1989718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的不断进步与生物信息学研究的不断深入,生物学数据每年在以指数级增长。仅仅靠既昂贵又耗时的生化实验来分析这海量级数据及其相关的生物学问题,已变得不太现实。为适应这种需求,研发可靠高效的计算方法和算法已迫在眉睫。本文主要以非线性科学方法作为模型,研究了蛋白质结构类和功能预测及物种亲缘分析中的一些问题,具体工作如下:  第二章,我们将研究低同源蛋白质的结构类预测问题。基于被预测的蛋白质二级结构信息,我们提出了一种新的简单的核函数方法来预测蛋白质的结构类。蛋白质二级结构信息是由流行的蛋白质二级结构预测工具PSIPRED预测得到。然后基于二级结构元比对打分构造了一个线性核函数,并作为预置核函数来训练支持向量机分类器。我们的方法没有可变参数要训练。最后我们的方法被应用到两个公开的低同源训练集上,并取得了良好的分类效果。与现有方法相比,我们的方法不仅提高了总的预测精度,而且在分辨α+β类和α/β类上呈现出更高的精度。这也说明基于二级结构元比对打分的线性核函数比基于蛋白质二级结构的统计信息更能捕获蛋白质二级结构序列之间的相似性。  第三章,我们将研究蛋白质的亚细胞位置定位问题。蛋白质的亚细胞位置和其生物功能是紧密相关的。氨基酸组分是蛋白质亚细胞位置定位的一个重要模型,但是其忽略了蛋白质序列顺序信息。为了弥补氨基酸组分模型的不足,我们使用了递归定量分析和Hilbert-Huang变换。这两个方法分别可以提取时间序列中的递归模式和不同频率信息。为了使用这两种方法,我们使用氨基酸的疏水性自由能和可溶性特性将每条氨基酸序列转化为两条时间序列。综合氨基酸组分、递归定量分析和Hilbert-Huang变换这三个模型总共产生62个特征。最终,每条蛋白质序列由62维特征向量表示。我们使用最大相关最小冗余方法来排列这62个特征,并仍旧使用SVM作为分类模型。使用刀切检验选择最优特征子集和评估这个方法的性能。我们方法测试了三个凋亡蛋白数据集,并从最终的结果中可得出,我们的方法使用相对较少的特征达到了较好的预测精度。这说明我们的方法对已有方法可能起到弥补作用。  第四章,我们将研究蛋白质亚细胞核位置定位问题。比起蛋白质的亚细胞位置定位,蛋白质亚细胞核位置定位更具挑战性。我们设计了一个新的两阶段多类支持向量机(two-stage multiclass support vector machine),并成功地将它应用到蛋白质亚细胞核预测。我们综合使用了两类特征提取方法:基于氨基酸分类的方法和基于氨基酸物理化学性质的方法。为了减少计算复杂度和特征冗余,我们提出了一个“两步最优特征选择方法”(two-step optimal feature selection)来寻找最优特征子集。在我们设计的系统中,所有的分类子是用带有概率输出的支持向量机构造的。我们使用径向基核函数,它的参数是由一个自动优化方法来确定,这进一步加速了我们的方法。一个权重策略是被用来处理不平衡数据集的问题。最后,我们方法和已有方法在三个测试集上的比较结果表明我们的方法是更加有效的,而且我们方法的结果优于单独使用支持向量机分类子和随机森林等分类子的结果。  第五章,我们将研究脊椎动物的亲缘关系分析。我们选取线粒体基因组作为我们的数据。我们首先利用DNA序列的混沌游戏表示(chaos game representation, CGR)来表示线粒体基因组。然后我们使用两种马尔科夫链(Markov chain)模型来模拟线粒体基因组,并将其作为基因组序列的噪声背景(noise background)候选模型。然后,我们基于这两个模型构造无比对方法,并应用在分析64个脊椎动物的亲缘关系分析中。最后,我们发现,在模拟线粒体基因组的CGRs方面,二阶马尔科夫链模型比一阶马尔科夫链模型更精细;但是,一阶马尔科夫链模型的CGR更适合用来表示随机背景,从原始CGRs中去除这个随机背景能增强线粒体基因组中的进化信息。
其他文献
颗粒流流动现象广泛存在于自然界和工程实践等领域中,其中大量离散颗粒的相互作用而使得颗粒流运动特性极其复杂,对这种作用机理的研究具有非常重要的意义.离散元法(DEM)是研
细分方法具有计算方式简单高效,适用于任意拓扑结构等优点,因此得到广泛重视,备受国内外学者的欢迎,已经成为CAGD中自由曲线曲面的重要造型方法。基于经典四点细分格式多步骤构造
随着计算机、通信和传感器技术的发展,多传感器信息融合技术已经成为各领域学者重点关注的焦点之一.由于通信宽带的限制和网络的承载能力等诸多因素的影响,从而导致数据在传
由于复合材料薄层铺设而成的层合板壳结构具有重量轻、强度高、介电性好、抗腐蚀等性质而被广泛地应用在各种工程结构中,如飞机的机翼、船舶的甲板、汽车的车身等。而且,随着对
在计算机网络环境下,信息安全问题越来越受到人们的重视,密码学是实现信息安全的重要保障.密钥协商协议是密码学的一个分支,它是解决通信安全问题的基本工具.在通讯领域中,大多数的
近年来,随着实际应用对系统的复杂程度要求越来越高,学者们纷纷开始关注具有凸多面体不确定的随机系统的稳定性以及稳定化问题,这类随机系统常见于元件随机故障及维修、互联子系
微分求积法从提出至今,由于其具有计算量小和精度高等优点而不断受到重视,目前对该数值方法本身的研究尽管已经相当成熟,但还有节点较多时,矩阵会出现病态以及数值不稳定等局限性
作为整数阶微分方程的一般化,分数阶微分方程可以更加确切的描述整数阶微分方程所不能描述的实验结果,因而具有更加广泛的应用价值.在最近几十年里,分数阶微分方程已经被广泛应