宏基因组的基因预测算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:qyxiao3771
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组学是一门新兴的无需依赖实验室培养过程研究微生物的学科。在新一代测序技术不断发展的推动下,宏基因组学提供了研究环境微生物组的新思路;与此同时,新测序技术产生的高通量序列数据也对计算生物学提出了新的挑战。本文着眼于宏基因组学研究中的基因预测问题。在生物学意义的指导下通过对宏基因组序列进行统计分析和建模,本文对宏基因组基因预测中的翻译起始位点预测和编码蛋白区预测两个重要问题进行了研究,在此基础上完成了相应软件工具的开发,为宏基因组的下游生物信息学分析和生物学实验研究提供了高质量的基因注释。  本文的第一部分工作是宏基因组基因翻译起始位点预测算法的研究。准确的翻译起始位点注释是宏基因组序列分析的重要难题之一。宏基因组研究的一个重要目标是发现新基因,准确的翻译起始位点是宏基因组研究中进行基因表达验证和蛋白质组学实验的前提条件;同时,也是对环境微生物组中翻译起始机制多样性进行研究的有力保障。单个基因组上的研究经验表明,原核生物翻译起始位点预测的难点在于翻译调控信号的多样性,其背后的生物学涵义是翻译起始机制的多样性。而宏基因组测序序列的特点,又给翻译起始位点的预测带来了新的挑战。首先,宏基因组测序序列来自于环境中的众多物种,且多数物种并未完成单个基因组测序,其翻译起始机制是未知的,因此,翻译起始机制的多样性更为显著。其次,宏基因组中序列拼接效果有限,因此大量序列的长度较短,这带来了两个不利因素:一方面,序列中包含大量不完整的基因片段,使得翻译起始位点或者翻译起始信号都可能被截断;另一方面,在单个基因组上设计的预测算法多数基于整个基因组进行建模,而这在宏基因组中无法适用。本文在单个基因组翻译起始位点研究的基础上,结合宏基因组序列的特点,设计了适用于宏基因组的翻译起始位点预测算法MetaTISA。MetaTISA分两个阶段进行预测:首先,用基于k-mer的贝叶斯分类算法对输入序列进行分类;然后,根据近缘物种翻译起始机制相同或相似的思想,在每一类上分别进行预测。每一类中,如果样本量足够,则采用迭代自学习算法进行预测,同时学习出这一类的模型参数;如果样本量不足则使用该类的先验模型参数进行预测。同时,对于基因被截断的情形,先估算翻译起始位点被截断的概率,再分情况进行处理。在实验确认的翻译起始位点测试集上的测试结果表明,MetaTISA能将MetaGeneAnnotator的翻译起始位点预测精度提高6%以上。最近,针对MetaTISA在位于序列边缘的翻译起始位点上预测精度相比较低的问题,本人又作了进一步的改进。首先,放宽了对候选翻译起始位点上游打分序列的长度限制,使之更适应于宏基因组序列中包含大量片段基因的现象。其次,对模拟数据集的分析发现,用于判断被截断的基因中是否包含真实翻译起始位点的阈值设置过于严苛;因此,本人基于模拟数据分析结果对该阈值进行了相应的调整。对改进后的MetaTISA算法的测试表明,预测效果较之前有了进一步的提高(约3%左右)。MetaTISA国际上第一个针对于宏基因组序列设计的后处理算法,它能大幅度提高翻译起始位点的注释质量,同时,做为后处理算法,它能很方便的应用于目前已有的基因预测算法,是宏基因组基因预测的一个有力补充。  本文第二部分工作是宏基因组基因预测算法的研究,也是本文最主要的工作。详尽的基因预测是宏基因组序列分析中最首要的问题。在传统的单个基因组测序中,基因预测算法通常基于整个基因组建模,进行迭代自学习预测或依赖于与已知蛋白质数据库的同源搜索建立可靠学习集。而在宏基因组中,由于如上所述宏基因组序列的特点,这类思路在宏基因组中不再适用。序列长度短、来源未知和包含大量片段基因是宏基因组基因预测中的三大难点。在对宏基因组序列进行大量研究分析的基础上,结合在单个基因组基因预测算法上的已有经验,本文设计了全新的宏基因组基因预测算法MetaGUN。宏基因组的序列由来自多个物种的基因序列混合组成,具体到单个序列片段则很难断定其来源;其中大部分物种又往往尚未完成或无法完成单个基因组测序。针对这一特点,MetaGUN采用化繁为简的思想,先基于序列组成的统计特征对输入序列进行分类,对同一类中的序列使用相同的统计模型刻画,然后分别独立地进行基因预测。在基因预测模型的训练中,MetaGUN采用在生物信息学上广泛使用的机器学习方法支持向量机,综合了密码子的熵密度分布、翻译起始信号打分和开放阅读框长度这三个统计特征作为特征向量对开放阅读框的编码潜能进行刻画。基因预测模型包含通用预测和特异预测两个模块,通用预测模块基于目前已经完成全基因组测序的基因组训练得到,特异预测模块则基于数据集的保守功能域搜索结果训练得到。新基因的发现能有力地扩展人们对微生物基因组认识的广度和深度,是宏基因组学研究的重要目标之一。特异预测模块正是为了提高对新基因的预测能力而整合的。对于输入的待预测宏基因组序列,特异预测模块先进行保守功能域的同源搜索获得数据集特异的包含高度保守功能域的同源基因;然后在此基础上构建训练集训练特异预测模型。因为基于功能域的搜索比基于序列的搜索对同源性更敏感,有利于确定远源的同源关系,因此基于功能域搜索的特异模型在宏基因组的基因预测中更具适用性。综合而言,对于待测序列,MetaGUN分为三个阶段进行基因预测:首先,进行序列分类;然后,根据序列分类结果在每一类上独立地进行基因预测,包含通用预测和特异预测两个模块;最后,使用已经完成的翻译起始位点预测算法MetaTISA对翻译起始位点进行进一步预测。在模拟宏基因组序列测试集上的结果表明MetaGUN的预测效果好于目前现有的宏基因组基因预测算法,同时,在两个人体肠道微生物组的真是数据上的测试表明,MetaGUN在发现新基因方面更具潜力。
其他文献
关于会议新闻的报道,有人曾经总结为“穿鞋戴帽,摘抄材料”。诚然,一般的会议消息,这样做既轻松又不会出错,稿件写出来后,四平八稳,无可挑剔。但笔者认为,要做一名合格、称职
火力发电厂中广泛使用的氧化镁烟气脱硫工艺产生大量的烟气脱硫废水、烟气脱硫固废(MDWR)和高钙粉煤灰等。其中,MDWR中含有50wt%硅藻土,镁元素含量约10wt%;脱硫废水中含镁2wt%;高
所谓的肉鸡坏死性肠炎是由产气荚膜引起的一种肠黏膜坏死脱落疾病,发病和死亡都很快.肉鸡坏死性肠炎的感染会导致鸡生长发育极其缓慢以及死亡,对于养鸡业造成了极大的危害.本
期刊
我国的信息化、智能化水平在不断的提高,各个行业都开始采用信息化管理,医疗作为社会中庞大且至关重要的机构,走向信息化是必然趋势。广州市正在加强数字化医疗的程度,最近,I
进入21世纪以来,各种呼吸道传染疾病的发生,引起了世界范围的关注。首先是2003年的春季爆发了新型呼吸道传染病非典型肺炎(SARS)。研究表明,引起该病的病原体是一种新发现的属于
学位
内蒙古幅员辽阔,矿产资源丰富,尤其是煤炭资源储量更是在全国占有举足轻重的地位。煤炭是我国最主要的能源资源,其开采、加工和利用在促进社会经济发展的同时,也引发了多种生态环
要素主义教育思潮自20世纪30年代诞生以来,就一直对美国的教育产生着深刻的影响.文章通过研究黛安·雷维奇的著作及其实践活动,阐述了黛安·雷维奇的新要素主义思想,并分析了
黑碳(black carbon,BC)广泛存在于土壤/沉积物中,近来有研究表明土壤/沉积物中BC的存在能在某种程度上影响污染物的生物可利用性,文章主要通过采用恒温平衡震荡吸附法,在理想状态
《J.阿尔弗雷德.普鲁弗洛克的情歌》是美国著名诗人T.S.艾略特早期最重要的作品,是现代主义文学的序幕和前奏,诗篇中凌乱的思维碎片是现代主义文学的一个关键词。本文从这一