论文部分内容阅读
随着人类基因组计划的实施,以及对各种生物的基因和蛋白质序列研究的逐渐深入,各种序列数据库、结构数据库等越来越庞大。如何有效地分析这些大规模的数据,并对其进行加工、处理和建模,从中发现规律以指导生物学研究和实验,是当今生物信息学研究的重要内容。序列相似性分析是生物信息学中的基本问题,其分析结果可广泛应用于物种分类、结构和功能预测、物种进化分析等领域。本文基于信息理论方法对DNA序列的相似性和聚类进行分析。以子序列概率分布表示序列特征时,FDOD函数具有增加性、继承性、存在最大值等良好的数学性质,在生物信息处理中得到广泛的应用。在此基础上,本文提出了一种新的基于信息离散度的DNA序列相似性分析方法。该方法用BB信息集表示序列特征,利用不同距离的碱基对的联合概率分布的离散度来表示序列之间的差异,考虑了16种碱基对的联合概率分布,以及同一种碱基对在不同距离下的概率分布。BB信息集的规模随着碱基对之间距离的增加呈线性增长,而FDOD方法中信息集的规模随子序列长度的增加呈指数增长。当BB信息集变化时,序列间的距离值变化较小,能有效降低对信息集选取的依赖性。我们对8种H5N1型禽流感病毒的HA片段和11种SARS病毒基因进行相似性分析,实验结果表明,该方法能对相似性较高的序列进行有效度量。本文对FDOD函数与Shannon熵、广义信息距离与Shannon熵的关系进行了分析,FDOD函数反映序列合并后的平均信息量的变化,而广义信息距离反映序列合并后的总信息量的变化。在此基础上,我们利用序列长度校正因子对FDOD函数和广义信息距离进行修正,提出了一种新的基于信息离散度的序列差异度量方法——修正的广义信息距离。该距离既能度量高度相似的序列,也能对长度差异较大的序列进行有效度量。我们基于修正的广义信息距离构建了一种直接聚类算法,分别对一组长度相差较大的序列和一组相似度较高的序列进行聚类分析,实验结果表明,该方法取得了较好的效果。