论文部分内容阅读
本文由两个主要部分组成,每个部分研究了生物信息学中的一个基本问题。
一个问题是区分编码序列和非编码序列;另一个是四种蛋白质结构,全-α类,全-β类,α+β类和α/β类,的分类。然后,我们用线性分类器给出了本文中所提出方法的区分率。
对于区分编码序列和非编码序列的问题,基于一种我们课题组之前所提出的DNA核苷酸序列的数字序列表示方式[65]和编码序列中的不完全的3周期性[15],我们用Fourier变换在完全基因组中进行编码序列和非编码序列的区分。编码序列或者非编码序列的数字序列在Fourier变换后得到的三个指数,Px(s-)(1),Px(s-)(1/3)和Px(s-)(1/36),被选出来构造参数空间。每个编码序列或者非编码序列被表示为这个三维参数空间之中的一个点。在这个参数空间中我们可以看到对应于一些原核生物的完全基因组中的编码序列和非编码序列可以被粗略的分开到不同的区域。如果一个核苷酸序列,它对应的点(Px(s-)(1),Pxf(s-)(1/3/),Px(s-)(1/36))落在了对应于编码序列的区域,我们就认为这个序列是编码序列;否则,我们就认为它是非编码序列。Fisher区分算法被用来给出一个区分准确率。当前方法所得到的51种原核生物的区分准确率Pc,Pnc,qc和qnc分别为81.43%,92.05%,81.07%和91.87%[67]。
对于蛋白质结构分类的问题,我们试图从两个不同的方面来解决这个问题。
我们用递归定量分析(recurrence quantification analysis(RQA))来研究蛋白质Cα的坐标分布来区分蛋白质结构类。我们同样得到三个参数%determ1,%determ21和%determ22来构造参数空间。我们提出了一种方法来把四类蛋白质结构一类一类的区分出来,并用Fisher区分算法来量化这个方法的聚类效果,数据结果显示区分效果令人满意[66]。另一方面,我们用局部Holder指数来提取蛋白质的局部信息。我们把基于一个6-字母的氨基酸模型(6-1etters model of amino acids)[9]的蛋白质序列数值表达看成一个时间序列,并估计它的局部Holder指数。接下来,我们可以得到这些指数的概率分布。我们用一些概率密度值作为我们在Matlab中利用神经网络工具箱建立的一个感知器的特征向量来区分四种蛋白质结构类,全-α类,全-β类,α+β类和α/β类。我们最终可以看到所选取的49个大蛋白质可以被100%正确的区分开来[68]。