傅立叶、小波、递归定量分析在区分编码和非编码序列及以及蛋白质结构类中的应用

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:kmffly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文由两个主要部分组成,每个部分研究了生物信息学中的一个基本问题。   一个问题是区分编码序列和非编码序列;另一个是四种蛋白质结构,全-α类,全-β类,α+β类和α/β类,的分类。然后,我们用线性分类器给出了本文中所提出方法的区分率。   对于区分编码序列和非编码序列的问题,基于一种我们课题组之前所提出的DNA核苷酸序列的数字序列表示方式[65]和编码序列中的不完全的3周期性[15],我们用Fourier变换在完全基因组中进行编码序列和非编码序列的区分。编码序列或者非编码序列的数字序列在Fourier变换后得到的三个指数,Px(s-)(1),Px(s-)(1/3)和Px(s-)(1/36),被选出来构造参数空间。每个编码序列或者非编码序列被表示为这个三维参数空间之中的一个点。在这个参数空间中我们可以看到对应于一些原核生物的完全基因组中的编码序列和非编码序列可以被粗略的分开到不同的区域。如果一个核苷酸序列,它对应的点(Px(s-)(1),Pxf(s-)(1/3/),Px(s-)(1/36))落在了对应于编码序列的区域,我们就认为这个序列是编码序列;否则,我们就认为它是非编码序列。Fisher区分算法被用来给出一个区分准确率。当前方法所得到的51种原核生物的区分准确率Pc,Pnc,qc和qnc分别为81.43%,92.05%,81.07%和91.87%[67]。   对于蛋白质结构分类的问题,我们试图从两个不同的方面来解决这个问题。   我们用递归定量分析(recurrence quantification analysis(RQA))来研究蛋白质Cα的坐标分布来区分蛋白质结构类。我们同样得到三个参数%determ1,%determ21和%determ22来构造参数空间。我们提出了一种方法来把四类蛋白质结构一类一类的区分出来,并用Fisher区分算法来量化这个方法的聚类效果,数据结果显示区分效果令人满意[66]。另一方面,我们用局部Holder指数来提取蛋白质的局部信息。我们把基于一个6-字母的氨基酸模型(6-1etters model of amino acids)[9]的蛋白质序列数值表达看成一个时间序列,并估计它的局部Holder指数。接下来,我们可以得到这些指数的概率分布。我们用一些概率密度值作为我们在Matlab中利用神经网络工具箱建立的一个感知器的特征向量来区分四种蛋白质结构类,全-α类,全-β类,α+β类和α/β类。我们最终可以看到所选取的49个大蛋白质可以被100%正确的区分开来[68]。
其他文献
回归分析是数理统计学中重要的内容。由于其广泛的应用,关于回归分析的理论、方法及其应用的研究广为关注。近年来,对非线性回归分析的方法及应用研究显得尤为重要。其原因一方
室内环境设计是指为满足一定的建造目的(包括人们对它的使用功能的要求、对它的视觉感受的要求)而进行的准备工作,对现有的建筑物内部空间进行深加工的增值准备工作。室内环境目
期刊
日前,Caterpillar和Torc Robotics联合发布了RemoteTask远程控制系统,该系统适用于Cat D系列滑移装载机、多地形装载机和小型履带式装载机。RemoteTask远程控制系统使操作人
“凡事预则立”,预习能开拓听课思路,提高学习效率,有利于培养好的习惯,发展自学能力.弹拨思维的心弦,处理好预习环节,学生会在课堂上如鱼得水,奏响预习的乐章,为整个学习过
各种不同的正交变换(傅立叶变换,离散余弦变换,Walsh变换,Haar变换等等)以及与它们相关的信号变换在众多领域中得到了广泛应用,如控制与通信理论,数字信号和图像处理,信号电
随着社会的发展,人们的生活水平的提高。近几年酒吧像春笋般纷纷涌现,酒吧比一般就餐环境文化氛围更浓烈一些,是人们休闲、交流的场所。因此,酒吧环境设计就显得非常重要了。本文
期刊
英语教学设计是英语教师教学的蓝图,是教学目标、教学重难点、教学流程等的具体体现。经验表明,好的英语教学设计更有可能诞生一节高效的英语课堂。一份好的英语教学设计如何
具有某些传递性的图的分类一直是群与图研究中的一个热门课题.图的传递性主要通过图自同构群作用在其点集、边集或弧集上的传递性来刻画.因此,图的全自同构群对研究图的传递性
本文主要阐述了照明节能设计的方法,从光源的选择、无功功率的补偿、光源启动设备的选择、照明的控制这四个角度详细分析了节能的各方面因素及其重要性。
期刊
期刊