论文部分内容阅读
随着人类基因组研究的重点向功能基因组转化,“海量”的生物数据为生命科学研究提供了广阔前景,同时也对现有的生物数据处理能力提出了严峻挑战。如何从浩如烟海的生物序列数据中挖掘出有价值的生物信息,以获取基因、蛋白质结构、功能和进化等理性知识是生物信息学研究的主要目的。因此基因序列与结构的信息分析是生物信息学的一个非常重要的研究课题。基因序列与结构信息的获取是通过序列和结构的比较来实现的,序列或结构比对是序列或结构比较的基础。序列或结构信息最终是为获取基因组功能以及进化关系服务的。基因表达的产物是蛋白质,蛋白质也是生命活动的执行体,而蛋白质亚细胞定位与蛋白质功能是密切相关的,蛋白质亚细胞定位信息可以为蛋白质功能的研究提供有用线索。在蛋白质亚细胞定位预测研究中,如何获取更完整的序列特征信息是关键。本文将围绕基因序列或结构特征信息分析这一主题,将从以下三个方面进行深入研究:(1)新型序列和结构比对方法,以提高分歧较大序列的多序列比对准确率;(2)基于图形表示的全基因组系统发育分析方法;(3)基于复合特征的蛋白质亚细胞定位预测方法。论文的主要研究成果如下:(1)基于最小编辑距离的序列比对算法中,针对动态规划过程中不是所有的过程都需要进行,提出了更有效的非动态规划算法,其复杂度分别为O(n.L)时间和O(n)空间,其他最快算法是由Pevzner和Waterman提出来,其复杂度分别为O(l+Ln)时间和O(l+Ln)空间。(2)针对多序列比对计算的高复杂性,采用一种平面图表示来描述多序列比对进程,既能考虑到每种可能的比对,也定义了空格插入、每种可选路径上迭代信息值和打分规则,引入蚁群遗传算法搜索和探索解空间中的最优近似解,提高了找到可行解的能力和避免过早收敛,能有效提高相同列指标。(3)针对现有RNA二级结构表示法存在高复杂性、退化和不同结构可能会对应相同表示的问题,提出了RNA二级结构的三位和四位编码表示方法,利用二进制的异或运算对RNA二级结构进行了比对分析。结构编码方式简单直接地展示了结构信息,有助于更好地实现突变分析可视化,从而推断疾病发生的机理。结构的编码方式也为结构比较提供了一种很好的数学模型,易于发现结构间的相似性和差异性,便于基因的检测和基因功能区的预测。该方法既能很好地区分自由基和基对及其它们的位置,也能区分含假结在内的不同子结构类。(4)针对系统发育分析需要构建指导树,且指导树生成方面存在近似程度不高的问题,运用图形表示生物序列的思想,提出了一种新的DNA序列的二维图形表示,给出了一种基于全基因组序列的二维图形表示来分析基因组进化关系的新方法,该方法通过对二维曲线之间的差异测量来得到进化距离。通过冠状病毒DNA序列的相似性/相异性比较实验,利用PHILIP软件包构建系统发育树,结果与实际进化树相吻合。该方法用全基因组的相似矩阵代替了进化距离矩阵,不需要多序列比对。既很好地体现了物种之间的关系,也大大降低了计算复杂性和时间复杂度。(5)引入一个基于距离频率的蛋白质序列编码方法,将一个原始序列定义为220维复合特征向量来表示一个蛋白质,包含20个氨基酸成分和200个相同氨基酸的距离频率。然后,我们用支持向量机算法进行蛋白质亚细胞定位预测,实验结果证明了该方法的有效性。