论文部分内容阅读
分形现象是自然界中普遍存在的一种现象。它反映了系统在演化过程中,不同时期状态的相互关系以及系统整体和局部之间、局部和局部之间的关系。关于脱氧核糖核酸(DNA)序列分形特性的研究,可以反映生物在亿万年进化过程中在DNA序列中留下的痕迹。因此分析DNA序列的分形特性不仅有助于理解生物进化的规律,而且它还有助于了解遗传语言的特征。本文从生物学的研究成果出发,同时借助分析非线性系统的理论,以系统和综合的观点来研究DNA序列。通过计算数字化的DNA序列的Hurst指数,来刻画DNA序列的分形特性。在分析过程中,主要解决在国内外具有争议的两大问题: 1. Hurst指数的估计方法较多,几乎都是基于方差有限的平稳随机过程推导而出。但是数字化的DNA具有较大的不可预测性,我们不能保证它满足以上条件,因此,我们考虑是否存在一种对其它类型的随机序列(附加短程相关序列、方差无限序列、非平稳序列)也适用的方法? 2. 无论何种类型的DNA序列,特别是编码区序列,是否具有长程相关性? 本文作者通过5 类测试序列(分形高斯噪声序列,高斯FARIMA(p, d, q)序列、由非高斯的有限方差随机序列激励的FARIMA 模型、由无限方差随机序列激励的FARIMA 模型、非平稳随机过程)对常用的12 种估计方法进行测试,得出取中值的残余方差法具有很好的鲁棒性,然后分别以哺乳动物、非脊椎动物、植物、真菌、细菌、病毒、原核生物等9 个物种的三类DNA 序列(基因序列,编码序列,非编码序列)作为实验对象,对以上DNA 序列经过8 种数字化编码方法后得到8种数字序列,利用取中值的残余方差法计算其Hurst 指数。计算结果表明,长程相关性存在于三类DNA 序列中,该研究为进一步探索DNA 序列的奥秘打下基础。考虑到本文需要处理数据较大,因此采用具有良好统计特性和具有面向对象的编程语言的SPLUS6.2作为试验平台,本文所有试验都是基于SPLUS6.2。