宏基因组样本分类方法研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:grand666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组也即环境基因组,是环境微生物群落中所有微生物物种基因组的集合。由于自然界中绝大多数微生物无法进行传统的单纯培养研究,宏基因组学成为研究环境微生物的主流方法。宏基因组测序数据是多种微生物基因组序列的混合,分析宏基因组数据比分析常规的单物种基因组序列更加困难。高通量测序技术的发展使大量宏基因组数据不断产生,如何完成宏基因组样本分类成为研究者的关注点之一。本文的研究聚焦于人体肠道的宏基因组样本的分类问题,发展了两种不同的宏基因组样本分类算法,试图通过分析肠道宏基因组数据完成对宿主疾病表型的判定。本论文的主要工作可以总结为以下三点。(1)研究了宏基因组样本分类特征,提出了全新的自比对特征。分类特征是样本分类的基础,本文引入了一种新的、对微生物物种有很好识别度的序列关联性特征,即ICO特征,并将ICO特征的应用范围从单物种的区分扩展到宏基因组样本的分类。同时,基于一种全新的思路提出了宏基因组样本自比对特征,该特征有助于解决高复杂度群落的宏基因组样本分类问题。(2)建立了基于碱基关联性特征ICO的样本分类算法DectICO。该算法使用ICO特征对样本进行特征化,将核偏最小二乘法(KPLS)特征筛选算法有机结合到分类算法流程中,形成了动态的特征筛选机制,结合支持向量机(SVM)的机器学习策略生成分类器,对宏基因组样本进行准确的分类。我们生成了 6组模拟宏基因组测序数据集并找到了1组高质量的真实宏基因组测序数据集进行分类实验,对样本分类算法DectICO能否较好的解决宏基因组样本分类问题进行评估。实验结果表明DectICO算法在复杂数据集的分类上较同类算法更有优势,结合长寡核苷酸对样本进行特征化后,这种分类优势变得更加明显。实验验证了 ICO特征可以应用于样本分类算法,能够帮助我们得到更好的分类结果,动态的KPLS算法形成的动态特征筛选机制可以帮助获得分类正确率更高的分类器。我们还通过实验将DectICO算法和同类算法递归支持向量机(RSVM)分类算法进行了分类准确率的比较。实验结果表明DectICO算法与国际上的同类算法(RSVM分类算法)相比,在宏基因组样本分类问题上有更高的分类准确率。(3)提出了一种全新的基于自比对特征的宏基因组样本分类算法。该算法利用原始数据集中的短序列(reads)装配成的序列重叠群(contig),通过构建自比对数据库,完成了对样本分类特征信息的提取,同时避免了目前微生物数据库不完善对样本分类的影响。在这一算法流程中,我们定义了自比对数据库、样本匹配得分、测序片段重叠群(contig)的独立性统计得分三个概念,在分类过程中完成了自比对数据库构建、自比对数据库优化和样本分类三个步骤,提高了分类效率和准确率。本文通过实验初步验证了样本的分类匹配得分和contig的独立性统计得分是有效的自比对特征,并对二型糖尿病(t2d)数据集完成了分类,结果显示算法的分类准确率比DectICO算法和RSVM分类算法更优,自比对分类算法在兼顾分类效率的情况下提高了分类准确率。
其他文献
通过文献资料法、调查法和逻辑分析法,对如何在现有条件下,科学、合理地安排学院体育场馆设施的资源配置,使之更好地发挥社会效益与经济效益进行综合分析,从而提出学院在体育
房地产行业经历了快速发展的30年,正朝着更加规范化、市场化、机制化的方向发展。在中国8万家房企,每年均有一定数量的房企倒闭、兼并、收购,归根结底企业的规划定位能力、招
全球化时代的中国复兴中,中国化的马克思主义与传统文化中的儒学是主要支柱,中国儒学与马克思主义有许多相通之处。讨论儒学义利观与马克思主义政治经济学之间的关系,就是在
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
利用普查数据或者专项调查数据进行历史数据的修正,目的在于使历史数据得以有效衔接,更加真实准确地反映数据的变化,满足未来时间序列数据的使用需要。文章以交通运输行业的
语际语用学是介于语用学和二语习得之间的交叉学科,主要研究外语学习者对目的语的理解、目的语言语行为的实施,以及外语语用知识习得。其理论基础主要来自于语用学和二语习得。
随着人类社会文明的发展和生活方式的改变,以代谢综合征为代表的代谢异常疾病已成为当前影响人类健康的最主要的非传染性疾病。据报道,美国24%的成年人患有代谢综合征,我国患
目的 了解郑州市某三级甲等医院护士职业性肌肉骨骼损伤和健康相关工作效率低下的现状,探讨二者之间的相关性.方法 便利抽取460名护士进行问卷调查,问卷包括一般情况调查表、北欧肌肉骨骼疾患标准问卷和工作受限情况调查问卷,对调查结果进行分析.结果 本研究中护士职业性肌肉骨骼损伤的年发生率为82.38%,腰、颈、肩部为职业性肌肉骨骼损伤的高发部位,其中以腰部最高,其年患病率高达60.48%.无肌肉骨骼损伤
日前,宁晋县中西医结合医院开展病历书写质量评比活动,提高病历书写质量,收到良好效果。病历书写质量是“医疗质量万里行”活动的重要组成部分,该院高度重视,成立病历书写质量管理