论文部分内容阅读
从处理遗传信息的角度来看,细胞本身构成了一个信息处理独立基本单元,从DNA的复制、转录到RNA翻译为蛋白质,对生物的遗传信息进行存储、传递。按传统的遗传学观点,所有的遗传信息都存储在生物的遗传物质之中,这个信息处理系统控制着生物的发育、生长和遗传。要揭示生命内部的具体工作机制,使用信息科学中的方法来研究遗传信息的存储、传递和表达是必不可少的。信息论是研究信息的度量、传递、交换和存储的一门科学。由于遗传信息作为一种信息,其存储与传递也必然遵循信息存储与传递的一般规律,因而可以采用信息论方法对遗传信息进行分析。本文首先针对基因组翻译起始和终止区域的碱基分布,如保守性、周期性等问题,提出了一种基于信息熵方法的模型进行分析。对DNA序列上起始密码子、终止密码子附近区域的碱基分布情况进行了统计,使用该模型的方法计算了该区域每个位点的信息熵,进而计算出信息剩余度,绘制出信息剩余度曲线。分析了各位点的保守性,对编码区域和非编码区域中的不同进行了分析比较。对编码起始、终止位点附近区域的信息熵分析的结果显示:在原核生物中,其编码区域的信息剩余度呈现非常强的周期为三的性质;亲缘较近的序列,其信息剩余度曲线相互聚集;在原核生物生物特有的SD区域,信息剩余度相对较大。而对真核生物的分析结果则相对较差,需要进一步的研究。同时,针对基因组序列相似性分析问题,本文提出了一种基于信息熵的相似性度量模型。将两条比对后的序列间的平均交互信息量与它们的联合熵之比作为它们的相似性度量。使用该度量构建了11个物种的相似性矩阵,对它们的相似性进行了分析,结果在一定程度上与生物分类学相契合。通过距离矩阵所构建的进化树,也反映了它们之间的进化关系,表明该模型的设计具有合理性。本文使用信息熵方法所得的实验结果表明,信息熵能够很好地表征一些生物学特性,它在生物信息学中的应用还有待人们进行更深入的研究。