论文部分内容阅读
随着后基因组时代的到来,生物学研究的重点已转向分析解释日益积累的海量数据,生物信息学(也称计算分子生物学)便应运而生,研究内容十分丰富,而其中的序列相似度分析尤为重要。这必然会涉及到生物序列的表征方式,以及序列特征信息的提取方法等核心问题。本文从现有的一些方法普遍存在的问题着手,在算法设计层面和数据应用层面上展开了一系列研究,提出了六种有效的特征信息提取算法模型,并和相关研究成果进行了理论与实验上的比较,验证了我们所提出算法的有效性。全文的主要工作概括如下:(1)生物序列的图形化表示,为我们提供了一个可供研究序列的可视化工具。为了直观地比较不同的DNA序列,本文提出一种新的特征信息抽取模型,可对序列作图形化表示,并作序列之间的相似度分析。引入变换将每条DNA序列用近邻核苷酸矩阵(NNM)来表示。再基于近似联合对角化(AJD),从每条DNA序列变换所得的NNM矩阵中抽取特征值作为表征向量(EVV),视每条EVV向量为各自所对应序列的数值描述子(Descriptor)。基于表征向量EVV可得DNA序列的二维表征图形。此外,利用k-均值法将这些表征各条序列的曲线图聚为若干个合理的子类。利用所得向量计算成对距离(Pair-wise Distance),以用来分析原始序列之间的相似度。本方法能同步、联合地从多重序列中抽取更多的信息,而非孤立地分析各条序列。在经典数据集上,构建系统树图验证了本方法的有效性。(2)为了比较不同的基因组序列,提出了新的非比对序列比较方法:考虑到序列具有“序”这一本质属性,基于16种不同类型的2-mer,也即双核苷酸(dinucleotides),定义一种复合变换,能将每条基因组序列转换成16×(L—1)的特征矩阵M。此外,我们还发现上述变换具有“保序”的特性。由矩阵分析理论,对矩阵M施以奇异值分解,来导出16维的向量用以描述每条基因组序列。最后,运用此算法对20条真哺乳亚纲线粒体基因组序列作相似度分析。实验结果表明,在基因组序列图形化表征及相似度分析方面,本算法表现较好。(3)为解决基因组序列维数较高,直接在低维空间数值表征很困难。本文还提出了具有“保距”特性的基因组序列的非比对模型。先将基因组序列转换成16×(L—1)的稀疏矩阵M,对所得矩阵M施以奇异值分解,便得16维“特征值”向量F用以表征每条基因组序列。通过主成分分析(PCA),将所得的前几个主元用于序列之间的比较。从理论上证明了:a)模型属于保距变换;b)16-元组向量与最近邻的双核苷酸数目相关密切。利用“特征值”向量F构建了各组哺乳动物基因组序列系统树图。此外,由主成分分析所得的前两个主元绘制物种的二维"Map图”,用以表征所涉物种间的亲缘关系。分析结果符合已知的哺乳动物谱系关系,揭示了线粒体基因组以及全基因组序列均能很好地将不同物种区分开来。本章的算法抓住基因组序列“序”的特性、能够将字符序列“保距”地变换(distane-preserving transformation:DPT)为低维向量空间中的数值向量。尤为值得一提的是,DPT算法非常适合大规模数据集(譬如:10条哺乳动物的全基因组序列数据集,序列平均长度达到2兆bps)。(4)基于所有各种近邻氨基酸(AAA)的分布情况,可将每条蛋白质序列映射成400×(L-1)的矩阵M,对M施行奇异值分解,从而可得从原始蛋白质序列抽取出归一化的数学描述符D,其维数为400。所得的400维归一化“特征”向量(NFV)便于对蛋白质序列作定量分析。运用蛋白质序列的归一化表示形式,遴选两个典型数据集作相似度分析。与相关研究工作所得结果对比研究表明,本算法(NFV-AAA)在蛋白质序列相似度分析领域,取得了较好的效果。(5)由于计算开销大的原因,传统的多重序列比对(MSA)不再适合基因组规模上的序列比较。本文还提出了改进的K-mer法:将序列分成若干段,并同时将每一段转换成相应的K-mer。该算法的关键在于确定出距离测度d、K值以及段数s的最优组合(矿,s‘,r)。基于从寻优分成的s*个片段的序列转化而来串联在一起的“特征”向量,运用所提出的分段K-mer模型(即:s-K-mer),获得34条哺乳动物线粒体基因组序列的系统树状图。结果表明序列相似度分析时,s-K-mer方法运行效果优于传统的K-mer方法。(6)比较多重基因组序列时,不仅只考虑全局相似性,还须考虑局部相似性。从信号处理的角度,本文还提出了拟用于基因组序列比较的新算法:先将各条基因组序列分成若干个片段,每段同时转换成相应的K-mer-based的向量,此过程可以视为将多重基因组信号经过虚拟传感器’virtual mixer’(VM)混合后的数值输出,实现了将长度迥异的原始序列转换为等长的向量。随后,利用ICA-based变换,可将上述混合输出的向量组向独立主成分投影,由此经过’projection extractor’(PE)捕获得到其投影向量;并从理论上严格证明了复合变换具有保距特性。此外,作为改进,引入双层VM-PE模型,以提高相似度分析的性能。而且经过层级VM-PE模型(HVMPE),大大降低了数据的维度。利用所提出的HVMPE模型,运用于两个线粒体基因组序列数据集作相似度分析,对比分析表明HVMPE模型明显好于现存的一些算法。