基于扩增子测序数据的样本分类算法及其标志物发现研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:s3100401
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肠道微生物是近年来一个研究热点,它与人类的健康和疾病息息相关。寻找疾病相关的微生物标志物,是人类在探索疾病道路上的一个重要方向。随着高通量测序地发展,越来越多在实验室不能培养出的微生物可以通过测序技术发现,肠道微生物组数据也爆发式地增长,这迫切需要研究或引入新的机器学习算法,以期发现相关疾病的微生物标志物。本文研究了基于肠道微生物数据的疾病分类机器学习算法,以此为基础,研究了用于微生物标志物发现的特征提取方法,并实现了一个微生物标志物数据库。本文主要包含如下工作:第一,引入LightGBM算法用于肠道微生物的疾病分类问题。对于疾病与肠道微生物关系问题,可以看成有监督的分类问题。本研究在基于微生物组的疾病分类问题中引入了 LightGBM这种较新的算法,并与深度森林、随机森林和支持向量机等几种在微生物组学数据中常用的方法进行比较,应用于10种疾病的肠道微生物数据。实验以微生物丰度数据作为算法的输入,以肠道微生物作为特征,样本患病与否作为输入的标签。实验系统地评估了四个算法在不同疾病之间的分类效果以及相同疾病不同数据集的分类效果。使用五折交叉验证,结果发现,LightGBM在多个数据集上都具有最好的表现。第二,微生物标志物发现的特征选择算法评估和数据库构建。首先,在10种疾病的27个数据集上,比较分析了支持向量机分类器经过特征选择前后的分类效果,其次在三种疾病上评估了七种具有代表意义的特征选择方法筛选出的生物标志物之间的重合性。经过特征选择能够筛选出与疾病相关的生物标志物,并且在与肠道微生物相关的疾病数据集上,mRMR与ReliefF算法的效果较好。最后基于实验结果构建疾病与肠道微生物关联数据库,并在网页端给用户提供查询相关疾病标志物的服务。综上,本文使用引入LightGBM算法用于肠道微生物的疾病分类问题,找到疾病与肠道微生物之间的关联,并评估了7种具有代表性的特征选择方法,用以找到相关的生物标志物,并构建了疾病与肠道微生物数据库。
其他文献
煤炭是我国最主要的能源之一,低透性煤层瓦斯的瓦斯抽采效率低、施工周期长严重制约着安全生产,通过深孔预裂爆破增透技术可以提高瓦斯的抽采效率,提高生产效率、保障生产安
杜84块兴隆台油藏是重是辽河油区投产较早的超稠油油藏。兴I组油层发育较好,平面上大面积连片分布,油顶埋深650~750m,单层平均厚度14.2m,边水油藏。岩性主要为砾状砂岩和含砾
由于近些年来软件程序应用领域逐渐扩大,这便导致软件规模也会随之变大。因为程序中日渐增加的缺陷会导致程序运行时出现错误的频率越来越大,这种缺陷程序存在的隐患将会影响
土壤是人类赖以生存的物质基础,承载着重要的生命过程和反应。而随着经济及工业的快速发展,土壤重金属污染已成为全球性环境问题,为保证人类健康、实现可持续发展,土壤重金属
钙钛矿是一种半导体材料,具有成本低,载流子迁移率高,光吸收系数高的特点,在太阳能电池、电致发光、激光器和显示器领域具有巨大的应用潜力,目前有机-无机杂化钙钛矿太阳能电
电离层是地球大气环境中最为关键的部分,对无线电通信有着重要作用。掌握电离层参数的变化规律是了解电离层最直接的方法。非相干散射雷达(ISR)可以高精度地探测到电离层等离
关系词是复句在语表形式上的标记,是复句中标示关系的一个重要构件,它在很大程度上影响着分句的语义和复句层次关系的识别。关系词的自动识别有助于划清句子的语法成分,弄清
生菜是叶用莴苣的俗称,属菊科莴苣属,为一年生或二年生草本作物,是四川地区叶菜类蔬菜的常见代表。已经有研究证实生菜在重金属污染的土壤上生长时对重金属镉具有一定的积累
离子的迁移对于生物系统中的信号的传输和处理至关重要,由此激发了仿生可植入离子传导传感器的研究,用于在体内监测生理信号。尽管用于柔性传感器的导电弹性体复合材料取得了
本文以成都市区为研究对象,通过对成都市内五种不同功能区(商业区、交通区、教育区、居住区、公园区)地表灰尘样品进行采集,测定了铅(Pb)、锌(Zn)、铜(Cu)、镍(Ni)、镉(Cd)、