论文部分内容阅读
目的:使用常用的基因集富集分析方法处理分析存在异质性和样本/病患特异性的数据集时会给分析结果引入系统误差,因此近几年有许多研究人员设计开发了一系列用于识别单个或异质样本中通路活动等的单样本基因集分析方法。那么对于不熟悉单样本基因集分析方法的生物学家来说,如何从这些已有的备选方法中选择最合适的分析方法是一个重要问题。目前的各类研究中,缺乏对已有单样本基因集分析方法工具的评估和比较。因此本研究旨在基于基因集分析方法理论,对所选6种单样本基因集分析方法在灵敏度,特异度和精确度方面进行比较研究,为数据分析方法的选择提供新的思路。方法:在GEO数据库中检索筛选8个与呼吸疾病相关的数据集,作为基准评估研究中的“金标准”测试数据集,并且选定的疾病相关数据必须具有已知的生物学功能注释的基因集(信号通路),能够作为参考靶向通路(Target Pathway)。结合生物学研究结果,比较6种单样本基因集分析方法结果中的有统计学意义的基因集与已知的生物学研究证据(靶向通路)的符合程度,然后计算灵敏度,特异度和精确度,最后进行客观评价。为了使基准研究便于记录、利用和传阅,使用Jupyter Notebook记录流程;并通过动态网页Shiny工具便于其他研究人员比较分析和选择方法。选择最佳基因集分析方法对2个实验数据集(COPD相关数据集GSE36221和COVID19相关数据集GSE147507)进行实例分析比较。结果:在基准研究中,GRAPE和Pathifier的灵敏度和精确度优于其他方法,而G SVA和ZSCORE在特异性上表现优异。然而Pathifier的计算时间过长,因此综合比较这6种方法,GRAPE的表现最佳。本基准研究的整个工作流程和名为“ss-shiny”的Shiny网页使用教程已经公布在网页:https://gsa-central.github.io/bench marKING。在实例分析研究中,对GRAPE方法进行应用探索,其分析结果在一定程度上能够准确的检出疾病相关的通路,与其他分析方法相辅相成。结论:目前研究人员对单样本基因集分析方法的性能了解不足,我们的基准研究表明,具有极高精确度的基因集分析方法不一定有着极高的灵敏度。综合研究结果来看,Pathifier和GRAPE为最佳的单样本基因集分析方法,这个结果和近期另一个比较研究的结果相一致。我们致力于基于Jupyter Notebook和Shiny应用(ss-shiny)创建生物信息学工具,使单样本基因集分析方法的基准研究变得更加明了。后续实例分析表明单样本基因集分析方法并不是唯一的分析方法选择,基准研究所得最优法GRAPE在分析复杂的COPD数据集时,提供了与传统的Web分析平台(Enrichr)的互补结果;在分析在COVID-19数据集时,对原作者未提及的结果进行了补充。