论文部分内容阅读
宏基因组学是一门新兴的无需依赖实验室培养过程研究微生物的学科。在新一代测序技术不断发展的推动下,宏基因组学提供了研究环境微生物组的新思路;与此同时,新测序技术产生的高通量序列数据也对计算生物学提出了新的挑战。本文着眼于宏基因组学研究中的基因预测问题。在生物学意义的指导下通过对宏基因组序列进行统计分析和建模,本文对宏基因组基因预测中的翻译起始位点预测和编码蛋白区预测两个重要问题进行了研究,在此基础上完成了相应软件工具的开发,为宏基因组的下游生物信息学分析和生物学实验研究提供了高质量的基因注释。 本文的第一部分工作是宏基因组基因翻译起始位点预测算法的研究。准确的翻译起始位点注释是宏基因组序列分析的重要难题之一。宏基因组研究的一个重要目标是发现新基因,准确的翻译起始位点是宏基因组研究中进行基因表达验证和蛋白质组学实验的前提条件;同时,也是对环境微生物组中翻译起始机制多样性进行研究的有力保障。单个基因组上的研究经验表明,原核生物翻译起始位点预测的难点在于翻译调控信号的多样性,其背后的生物学涵义是翻译起始机制的多样性。而宏基因组测序序列的特点,又给翻译起始位点的预测带来了新的挑战。首先,宏基因组测序序列来自于环境中的众多物种,且多数物种并未完成单个基因组测序,其翻译起始机制是未知的,因此,翻译起始机制的多样性更为显著。其次,宏基因组中序列拼接效果有限,因此大量序列的长度较短,这带来了两个不利因素:一方面,序列中包含大量不完整的基因片段,使得翻译起始位点或者翻译起始信号都可能被截断;另一方面,在单个基因组上设计的预测算法多数基于整个基因组进行建模,而这在宏基因组中无法适用。本文在单个基因组翻译起始位点研究的基础上,结合宏基因组序列的特点,设计了适用于宏基因组的翻译起始位点预测算法MetaTISA。MetaTISA分两个阶段进行预测:首先,用基于k-mer的贝叶斯分类算法对输入序列进行分类;然后,根据近缘物种翻译起始机制相同或相似的思想,在每一类上分别进行预测。每一类中,如果样本量足够,则采用迭代自学习算法进行预测,同时学习出这一类的模型参数;如果样本量不足则使用该类的先验模型参数进行预测。同时,对于基因被截断的情形,先估算翻译起始位点被截断的概率,再分情况进行处理。在实验确认的翻译起始位点测试集上的测试结果表明,MetaTISA能将MetaGeneAnnotator的翻译起始位点预测精度提高6%以上。最近,针对MetaTISA在位于序列边缘的翻译起始位点上预测精度相比较低的问题,本人又作了进一步的改进。首先,放宽了对候选翻译起始位点上游打分序列的长度限制,使之更适应于宏基因组序列中包含大量片段基因的现象。其次,对模拟数据集的分析发现,用于判断被截断的基因中是否包含真实翻译起始位点的阈值设置过于严苛;因此,本人基于模拟数据分析结果对该阈值进行了相应的调整。对改进后的MetaTISA算法的测试表明,预测效果较之前有了进一步的提高(约3%左右)。MetaTISA国际上第一个针对于宏基因组序列设计的后处理算法,它能大幅度提高翻译起始位点的注释质量,同时,做为后处理算法,它能很方便的应用于目前已有的基因预测算法,是宏基因组基因预测的一个有力补充。 本文第二部分工作是宏基因组基因预测算法的研究,也是本文最主要的工作。详尽的基因预测是宏基因组序列分析中最首要的问题。在传统的单个基因组测序中,基因预测算法通常基于整个基因组建模,进行迭代自学习预测或依赖于与已知蛋白质数据库的同源搜索建立可靠学习集。而在宏基因组中,由于如上所述宏基因组序列的特点,这类思路在宏基因组中不再适用。序列长度短、来源未知和包含大量片段基因是宏基因组基因预测中的三大难点。在对宏基因组序列进行大量研究分析的基础上,结合在单个基因组基因预测算法上的已有经验,本文设计了全新的宏基因组基因预测算法MetaGUN。宏基因组的序列由来自多个物种的基因序列混合组成,具体到单个序列片段则很难断定其来源;其中大部分物种又往往尚未完成或无法完成单个基因组测序。针对这一特点,MetaGUN采用化繁为简的思想,先基于序列组成的统计特征对输入序列进行分类,对同一类中的序列使用相同的统计模型刻画,然后分别独立地进行基因预测。在基因预测模型的训练中,MetaGUN采用在生物信息学上广泛使用的机器学习方法支持向量机,综合了密码子的熵密度分布、翻译起始信号打分和开放阅读框长度这三个统计特征作为特征向量对开放阅读框的编码潜能进行刻画。基因预测模型包含通用预测和特异预测两个模块,通用预测模块基于目前已经完成全基因组测序的基因组训练得到,特异预测模块则基于数据集的保守功能域搜索结果训练得到。新基因的发现能有力地扩展人们对微生物基因组认识的广度和深度,是宏基因组学研究的重要目标之一。特异预测模块正是为了提高对新基因的预测能力而整合的。对于输入的待预测宏基因组序列,特异预测模块先进行保守功能域的同源搜索获得数据集特异的包含高度保守功能域的同源基因;然后在此基础上构建训练集训练特异预测模型。因为基于功能域的搜索比基于序列的搜索对同源性更敏感,有利于确定远源的同源关系,因此基于功能域搜索的特异模型在宏基因组的基因预测中更具适用性。综合而言,对于待测序列,MetaGUN分为三个阶段进行基因预测:首先,进行序列分类;然后,根据序列分类结果在每一类上独立地进行基因预测,包含通用预测和特异预测两个模块;最后,使用已经完成的翻译起始位点预测算法MetaTISA对翻译起始位点进行进一步预测。在模拟宏基因组序列测试集上的结果表明MetaGUN的预测效果好于目前现有的宏基因组基因预测算法,同时,在两个人体肠道微生物组的真是数据上的测试表明,MetaGUN在发现新基因方面更具潜力。