论文部分内容阅读
本文的工作主要包括以下三个部分:
首先,我们研究蛋白质结构的可设计性(designability).基于对蛋白质结构空间的随机取样以及序列空间的普通有偏取样(common biased sampling,CBS),利用6种网格模型(4×4,5×5,6×6正方形网格,3×3×3立方体网格,2+3+4+3+2,4+5+6+5+4三角形网格)、三种不同大小的字母集(HP、HNUP与20个字母)以及两种能量函数,我们计算了蛋白质结构的可设计性.然后定义并计算了三个量:稳定性(stability),可折叠性(foldability)以及可分数(partnum),这些量被用于解释蛋白质结构的可设计性.我们发现:无论是采用什么类型的网格模型、哪种字母集以及能量函数,都有高可设计性结构的出现;对于考虑的所有情形,局部作用降低了蛋白质序列的退化率(degeneracy rate),并使可设计性变高;可设计性对于网格类型,字母集以及能量函数是敏感的;与随机取样方法相比,CBS与MetropolisMonte Carlo取样方法都使得可设计性变高;可设计性与稳定性、可折叠性的相关系数在大多数情况都大于0.5,这表明他们之间有很强的的线性关联关系,但是可设计性与可分数的线性关联关系并没有这么强,因为可分数是独立于能量的[1].
其次,我们讨论四种蛋白质结构类(即α,β,α+β和α/β)的聚类分析.我们把Schneider与Wrede疏水性尺度以及蛋白质6-字母模型用于大蛋白质二级结构类的分类.由这两种类型的数据,我们构造了的两种测度,并用两种形式的重分形分析对它们进行了分析.通过计算,我们得到9个参数,并用它们来构建参数空间.每个蛋白质都由这些空间中的一个点来表示,我们提出了在这些空间中通过α,β,α+β与α/β与结构类分类蛋白质的步骤.Fisher区分算法被用于评价所用的49个大蛋白质聚类的准确率,数值结果表明区分准确率比较高.特别地,在一个三维空间中,由{β,α+β、α/β}蛋白质分出α蛋白质的准确率达100.00%以及84.21%;在另一个三维空间中,由{α+β、α/β}蛋白质分出β蛋白质的准确率达92.86%以及86.96%;在最后一个三维空间中,由α/β蛋白质分出α+β蛋白质的准确率达91.67%以及83.33%[2].
最后,我们预测人类Pol Ⅱ启动子,主要是对启动子与非启动子序列进行区分.在此,非启动子序列是由外显子(Exon)与内含子(Intron)序列共同组成的.我们一共用到四种方法:两种形式的重分形分析方法对二核苷酸自由能序列的分析,Z曲线(Z curve)以及全局描述(global descriptor)方法对启动子与非启动子序列的分析.由这些方法我们一共得到141个参数,它们被分成七组,并用于构建一些空间,然后每个启动子与非启动子序列都由相应空间中的一个点表示.基于Fisher区分算法,在测试完这七组参数的所有120种组合后,我们发现:利用较少的参数(96以及117),得到了较满意的区分效果.特别地,在117个参数的情形下,训练集与测试集上的准确率分别达到90.43%与89.79%.与其它五种方法比较,我们的方法较好.用全局描述方法(36个参数),人类22号染色体上的18个由实验证实的启动子有17个被正确识别[3].