论文部分内容阅读
随着基因组计划的实施,产生了海量生物序列数据,要想理解这些生物数据反映的生物意义是一个巨大的挑战,这需要我们不断加深对生物细胞和器官机能的了解。不过,这其中还有一项重要的工作就是研究如何去组织、分类和分析哪些随着基因工程而产生的海量的生物序列数据。虽然确定生物分子结构和功能最可靠的方式依然是通过直接的生物实验。但是因为获得DNA基因序列以及相应的RNA和蛋白质序列却比通过生物试验确定它们的结构和功能容易的多。所以研究如何能从这些生物序列获取生物信息的计算方法就变得十分有意义。生物由特定的祖先进化而来,表现在生物序列上就是会有一些相似性,用这些相似性来从生物序列中获取生物信息是生物序列计算分析的出发点,而且大多数生物序列计算分析的核心思想是用那些生物试验已经确定的信息来研究分析更多未做生物实验研究的生物序列中的未知信息。
论文首先就生物序列比较方法的研究现状进行了综合论述,对各种方法的理论依据和实现方式作了较详细的介绍,并指出了当前生物序列比较方法领域的难点所在,为我们进一步的研究工作明确了方向。
论文接着研究了把生物序列映射为高维空间中点的可行性,由此提出了一种新的生物序列分析方法——基于高维仿生信息学的序列比较方法。这一方法是从把信息数字化的角度出发,先通过寻找合适的映射把生物序列对应为特征空间中的点,进而把生物序列分析比较问题转化为高维空间点分布问题,最后再用高维仿生信息学方法来研究相应的点分布问题。
然后使用这一方法,通过生物全基因组序列数据研究了病毒种系进化问题,设计了以此为基础的方法模型,并用该模型研究了SARS冠状病毒和其它冠状病毒之间的种系进化关系,构建了种系进化树,最终的实验结果准确的重现了冠状病毒的种系进化关系,与直接通过生物实验得到的结果完全一致。而且实验的结果表明SARS病毒和其它冠状病毒进化关系较远,自己独自构成一组,这和很多研究工作者通过各种方法得到的结果一致。
最后,针对全基因组序列,提出了一种兼顾序列整体连贯信息的特征提取方法。在该方法中借用了相机拍照的思路,通过“调焦”将不同长度的序列放入同一尺寸的“序列照片”中,然后通过研究核苷酸含量的变化来提取特征。之后我们以这种方法为基础研究了病毒自动分类问题。使用从GenBank中获取的多类病毒全基因组序列数据作为材料进行实验,并采用词频统计的特征提取办法作对比实验。在构建识别系统的时候,我们采用了基于仿生模式识别的方法。实验的结果表明对于全基因组序列,本文提出的特征提取方法分类结果非常出色。实验结果还表明,基于“认识”和“同源连续性”的仿生模式识别方法在处理这种类别非常多,样本个数很少的识别问题时相当有效。