论文部分内容阅读
生物信息学是多学科的交叉产物,以计算机为工具对生物信息进行存储、检索和分析。本论文主要研究了生物序列可视化、比对以及蛋白质序列网络等有关问题。
从混沌游走中得到启发,引入CGR(ChaosGameRepresentation)的概念,定义了蛋白质混沌游走表示法(PCGR,Chaosgamerepresentationofprotein)。针对蛋白质序列的多重分形性质及其Renyi熵率进行进一步研究。数学领域中的分形理论和信息论中的熵率概念被引入到蛋白质序列的分析中:把20种氨基酸以看作符号序列,由混沌游走表示的二维可视化延伸到n维空间中,用分形维数来体现蛋白质序列的性质;另外,蛋白质序列也可以被看作一组信号,可以用信息熵的概念来进行刻画。然后把多重分形维数和符号序列的Renyi熵率之间通过概率测度μ建立对应关系。
氨基酸按照不同的性质进行分类,其分类的依据和偏重不同,分类结果也不同。文中介绍了两种分类:根据HP模型分为4类和依照理化性质分为7类,结合提出的一种新的比对算法,把分类过的两条蛋白质序列进行比对。利用蛋白质序列的PCGR距离,给定阈值k,迅速判断相同片段的长度及所在位置,降低了计算复杂度也可以保证比对效率,还可以根据比对结果判断序列的相似性。
另外结合分层聚类法,利用FCGR(Frequen cymatrice sextracted from CGRs)距离和二次偏差距离分别构造了26种生物的种系发生树。不同的距离定义、相同的数据,得到不同的种系树,可以探讨物种之间的进化关系。每个结点表示一段DNA片段,每一条连线都包含着片段之间的连接信息。通过复杂网络研究生物体的拓扑结构,主要通过测量聚类系数构建网络的拓扑结构。结果表明所构建的复杂网络的度分布呈现幂率性质,但是其幂率指数过小,这说明了DNA序列有着稳定的结构,但是在遗传过程中却存在大量的随机性和不稳定性。