论文部分内容阅读
宏基因组也即环境基因组,是环境微生物群落中所有微生物物种基因组的集合。由于自然界中绝大多数微生物无法进行传统的单纯培养研究,宏基因组学成为研究环境微生物的主流方法。宏基因组测序数据是多种微生物基因组序列的混合,分析宏基因组数据比分析常规的单物种基因组序列更加困难。高通量测序技术的发展使大量宏基因组数据不断产生,如何完成宏基因组样本分类成为研究者的关注点之一。本文的研究聚焦于人体肠道的宏基因组样本的分类问题,发展了两种不同的宏基因组样本分类算法,试图通过分析肠道宏基因组数据完成对宿主疾病表型的判定。本论文的主要工作可以总结为以下三点。(1)研究了宏基因组样本分类特征,提出了全新的自比对特征。分类特征是样本分类的基础,本文引入了一种新的、对微生物物种有很好识别度的序列关联性特征,即ICO特征,并将ICO特征的应用范围从单物种的区分扩展到宏基因组样本的分类。同时,基于一种全新的思路提出了宏基因组样本自比对特征,该特征有助于解决高复杂度群落的宏基因组样本分类问题。(2)建立了基于碱基关联性特征ICO的样本分类算法DectICO。该算法使用ICO特征对样本进行特征化,将核偏最小二乘法(KPLS)特征筛选算法有机结合到分类算法流程中,形成了动态的特征筛选机制,结合支持向量机(SVM)的机器学习策略生成分类器,对宏基因组样本进行准确的分类。我们生成了 6组模拟宏基因组测序数据集并找到了1组高质量的真实宏基因组测序数据集进行分类实验,对样本分类算法DectICO能否较好的解决宏基因组样本分类问题进行评估。实验结果表明DectICO算法在复杂数据集的分类上较同类算法更有优势,结合长寡核苷酸对样本进行特征化后,这种分类优势变得更加明显。实验验证了 ICO特征可以应用于样本分类算法,能够帮助我们得到更好的分类结果,动态的KPLS算法形成的动态特征筛选机制可以帮助获得分类正确率更高的分类器。我们还通过实验将DectICO算法和同类算法递归支持向量机(RSVM)分类算法进行了分类准确率的比较。实验结果表明DectICO算法与国际上的同类算法(RSVM分类算法)相比,在宏基因组样本分类问题上有更高的分类准确率。(3)提出了一种全新的基于自比对特征的宏基因组样本分类算法。该算法利用原始数据集中的短序列(reads)装配成的序列重叠群(contig),通过构建自比对数据库,完成了对样本分类特征信息的提取,同时避免了目前微生物数据库不完善对样本分类的影响。在这一算法流程中,我们定义了自比对数据库、样本匹配得分、测序片段重叠群(contig)的独立性统计得分三个概念,在分类过程中完成了自比对数据库构建、自比对数据库优化和样本分类三个步骤,提高了分类效率和准确率。本文通过实验初步验证了样本的分类匹配得分和contig的独立性统计得分是有效的自比对特征,并对二型糖尿病(t2d)数据集完成了分类,结果显示算法的分类准确率比DectICO算法和RSVM分类算法更优,自比对分类算法在兼顾分类效率的情况下提高了分类准确率。