蛋白质结构可设计性的研究、蛋白质结构类及人类PolⅡ启动子的预测

来源 :湘潭大学 | 被引量 : 1次 | 上传用户:chibi2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的工作主要包括以下三个部分:   首先,我们研究蛋白质结构的可设计性(designability).基于对蛋白质结构空间的随机取样以及序列空间的普通有偏取样(common biased sampling,CBS),利用6种网格模型(4×4,5×5,6×6正方形网格,3×3×3立方体网格,2+3+4+3+2,4+5+6+5+4三角形网格)、三种不同大小的字母集(HP、HNUP与20个字母)以及两种能量函数,我们计算了蛋白质结构的可设计性.然后定义并计算了三个量:稳定性(stability),可折叠性(foldability)以及可分数(partnum),这些量被用于解释蛋白质结构的可设计性.我们发现:无论是采用什么类型的网格模型、哪种字母集以及能量函数,都有高可设计性结构的出现;对于考虑的所有情形,局部作用降低了蛋白质序列的退化率(degeneracy rate),并使可设计性变高;可设计性对于网格类型,字母集以及能量函数是敏感的;与随机取样方法相比,CBS与MetropolisMonte Carlo取样方法都使得可设计性变高;可设计性与稳定性、可折叠性的相关系数在大多数情况都大于0.5,这表明他们之间有很强的的线性关联关系,但是可设计性与可分数的线性关联关系并没有这么强,因为可分数是独立于能量的[1].   其次,我们讨论四种蛋白质结构类(即α,β,α+β和α/β)的聚类分析.我们把Schneider与Wrede疏水性尺度以及蛋白质6-字母模型用于大蛋白质二级结构类的分类.由这两种类型的数据,我们构造了的两种测度,并用两种形式的重分形分析对它们进行了分析.通过计算,我们得到9个参数,并用它们来构建参数空间.每个蛋白质都由这些空间中的一个点来表示,我们提出了在这些空间中通过α,β,α+β与α/β与结构类分类蛋白质的步骤.Fisher区分算法被用于评价所用的49个大蛋白质聚类的准确率,数值结果表明区分准确率比较高.特别地,在一个三维空间中,由{β,α+β、α/β}蛋白质分出α蛋白质的准确率达100.00%以及84.21%;在另一个三维空间中,由{α+β、α/β}蛋白质分出β蛋白质的准确率达92.86%以及86.96%;在最后一个三维空间中,由α/β蛋白质分出α+β蛋白质的准确率达91.67%以及83.33%[2].   最后,我们预测人类Pol Ⅱ启动子,主要是对启动子与非启动子序列进行区分.在此,非启动子序列是由外显子(Exon)与内含子(Intron)序列共同组成的.我们一共用到四种方法:两种形式的重分形分析方法对二核苷酸自由能序列的分析,Z曲线(Z curve)以及全局描述(global descriptor)方法对启动子与非启动子序列的分析.由这些方法我们一共得到141个参数,它们被分成七组,并用于构建一些空间,然后每个启动子与非启动子序列都由相应空间中的一个点表示.基于Fisher区分算法,在测试完这七组参数的所有120种组合后,我们发现:利用较少的参数(96以及117),得到了较满意的区分效果.特别地,在117个参数的情形下,训练集与测试集上的准确率分别达到90.43%与89.79%.与其它五种方法比较,我们的方法较好.用全局描述方法(36个参数),人类22号染色体上的18个由实验证实的启动子有17个被正确识别[3].
其他文献
人们对二项式系数的研究已有近七百年的历史,通过长期的研究发现,二项式系数和序列具有很多良好的性质,并且和许多数学问题有着非常密切的关系. 1978年Apdry利用二项式系数和序
辐射扩散方程是描述惯性约束聚变(ICF)的辐射流体力学方程组的重要组成部分.近二三十年,由于格子Boltzmann方法已成为一种高效的数值模拟方法,因此研究单温辐射扩散方程的格子B
Smarandache函数,Smarandache原函数,Dirichlet除数函数,Euler函数以及一些特殊的函数和数列在数论中占有很重要的地位.研究它们的均值性质以及彼此之间的相互关系是一个很有意
控制系统的稳定性是系统分析的重要组成部分,系统稳定是控制系统正常工作的前提条件。对于一个实际的控制系统,其工作的稳定性无疑是一个极其重要的问题,所以控制不稳定系统
本文研究了二维逆时热传导问题,即由介质在某一时刻T>O的温度场分布f(x)来求初始温度分布.该问题有两个特点,首先该问题不是对任意给定的函数f(x)都存在解.其次,初始温度场的数据