论文部分内容阅读
肠道微生物是近年来一个研究热点,它与人类的健康和疾病息息相关。寻找疾病相关的微生物标志物,是人类在探索疾病道路上的一个重要方向。随着高通量测序地发展,越来越多在实验室不能培养出的微生物可以通过测序技术发现,肠道微生物组数据也爆发式地增长,这迫切需要研究或引入新的机器学习算法,以期发现相关疾病的微生物标志物。本文研究了基于肠道微生物数据的疾病分类机器学习算法,以此为基础,研究了用于微生物标志物发现的特征提取方法,并实现了一个微生物标志物数据库。本文主要包含如下工作:第一,引入LightGBM算法用于肠道微生物的疾病分类问题。对于疾病与肠道微生物关系问题,可以看成有监督的分类问题。本研究在基于微生物组的疾病分类问题中引入了 LightGBM这种较新的算法,并与深度森林、随机森林和支持向量机等几种在微生物组学数据中常用的方法进行比较,应用于10种疾病的肠道微生物数据。实验以微生物丰度数据作为算法的输入,以肠道微生物作为特征,样本患病与否作为输入的标签。实验系统地评估了四个算法在不同疾病之间的分类效果以及相同疾病不同数据集的分类效果。使用五折交叉验证,结果发现,LightGBM在多个数据集上都具有最好的表现。第二,微生物标志物发现的特征选择算法评估和数据库构建。首先,在10种疾病的27个数据集上,比较分析了支持向量机分类器经过特征选择前后的分类效果,其次在三种疾病上评估了七种具有代表意义的特征选择方法筛选出的生物标志物之间的重合性。经过特征选择能够筛选出与疾病相关的生物标志物,并且在与肠道微生物相关的疾病数据集上,mRMR与ReliefF算法的效果较好。最后基于实验结果构建疾病与肠道微生物关联数据库,并在网页端给用户提供查询相关疾病标志物的服务。综上,本文使用引入LightGBM算法用于肠道微生物的疾病分类问题,找到疾病与肠道微生物之间的关联,并评估了7种具有代表性的特征选择方法,用以找到相关的生物标志物,并构建了疾病与肠道微生物数据库。