面向生物可解释性的基因组学数据特征选择

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:carjitar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于基因组学数据识别与疾病发生、发展有关的标志物,对于疾病诊断、治疗和预防有着重要的意义。受采集成本、测序水平多方面因素影响,基因组学数据呈现出样本量小、特征维度高的特点,传统特征选择方法在基因组学数据上的应用关注了特征的分类性能,忽视了选择结果的生物可解释性。目前在处理以下具体问题时存在不足:(1)在基因组学数据上开展癌症诊断标志物筛选时,用传统方法很容易找出分类性能良好的特征集,但由于未结合生物学先验知识,这些方法得到的特征集在功能富集分析时结果不显著,导致后续生物学研究价值不大;(2)在基因组学数据上开展癌症预后标志物筛选时,目前应用的方法没有考虑肿瘤的异质性问题,也没有充分利用实际基因网络的调控方向和调控权重,使得结果缺乏在不同癌症类型上的特异性,且不具备显著的生存风险差异,无可参考的临床价值;(3)在肠道微生物宏基因组数据上开展2型糖尿病标志物筛选时,由于高维度引发的特征共线性问题明显,加之可参考的相关知识不完整,使得特征选择结果的生物可解释性存疑。针对目前在癌症诊断、癌症预后和2型糖尿病关联宏基因标志物筛选方面存在的上述问题,本文展开了如下的研究工作。针对目前传统特征选择方法在癌症诊断标志物筛选时,难以获得有价值的生物学发现问题,结合基因功能交互(Functional Interactions,FIs)网络和无限潜藏特征选择方法(Infinite Latent Feature Selection,ILFS),提出了一种基于基因网络的癌症诊断特征选择方法NCILFS(Network-Constraint ILFS)。该方法通过在无限潜藏特征选择中引入基因网络来提升方法在生物可解释方面的能力,在评价单个基因节点重要性时,能够考虑网络通路上所有节点的影响,综合了特征选择方法和生物学先验知识的优势。在五个癌症数据集上进行诊断标志物筛选的实验表明,NCILFS方法在其中四个数据集上的预测性能最好,在所有五个癌症数据集上选中致癌基因数目的显著水平最高,基因本体富集分析(Gene Ontology,GO)和基因集富集分析(Gene Set Enrichment Analysis,GSEA)也显示了方法可以获得生物可解释性上最为显著的基因集。针对目前在癌症预后标志物筛选时,现有的方法未很好考虑样本的异质性问题,且没有充分利用基因网络的调控方向和调控权重,提出了一种基于聚类加权网络的特征选择算法用于癌症预后标志物筛选。该方法结合两种衡量指标来进行图的加权,并通过聚类来减少癌症样本异质性对特征选择结果的影响。在五个癌症数据集的预后标志物筛选的实验表明,基于聚类加权网络特征选择方法在多数情形下预测性能更好,KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析和KM(KaplanMeier)生存分析的结果也表明,基于聚类加权网络特征选择方法能获得生物可解释性更好的基因集。针对目前宏基因组学数据因为高维导致的共线性使得在分析上十分困难,加之可参考的相关知识有限,提出了一种基于数据共线性概率分布的迭代确信独立特征选择(Iterative Sure Independence Screening,ISIS)。为了在宏基因组表达数据中找出最有区分性的关联基因,提出基于真实样本数据特征之间的共线性概率分布进行特征选择。迭代确信独立特征选择通过迭代的筛选技巧和近似无偏的正则化过程来尽量避免共线性所带来的影响。将该方法用于中国人和欧洲人的肠道微生物宏基因组进行2型糖尿病标志物筛选,从中国人数据集选出了有代表性的48个肠道微生物基因,欧洲人数据集选出了有代表性的24个肠道微生物基因。实验结果表明,选出的基因在中国人数据集上获得最高预测精度AUC(Area under curve)为0.97,在欧洲人数据集上获得的最高预测精度AUC为0.99。从特征选择结果的生物学注释可以看到该方法选出的微生物标志物和2型糖尿病之间存在明显关联。并且,实验结果从侧面证实了欧洲人和中国人肠道微生物存在差异。
其他文献
随着科技的发展,可供使用的数据规模与计算资源成倍的增长,机器学习在理论研究和实际应用方面均有惊人的进展,目前已广泛应用于大数据分析、计算机视觉、自然语言处理等实际应用中。图像分类问题作为机器学习的重要方向,得到了广泛的研究,但目前仍存在不少挑战。例如,实际所获得的图像可能带噪声或者遮挡块;训练集与测试集数据可能不满足独立同分布约束,分布不同但又有一定的关联性;采集到的图像数据分布不均衡、部分样本不
学位
水下成像探测具有结果直观、便于处理和理解,图像空间分辨率高,系统构成简便、结构灵活等特点,被广泛应用于水下目标定位、搜寻、海水参数测量等各个领域,是搭建海洋原位测量系统的有力研究技术。目前水下成像探测系统多采用以计算机为核心的信息处理系统,难以满足海洋原位监测系统大面积、远距离水下目标搜索系统的需求。本论文对海洋探测实际需求展开研究,设计基于FPGA和DSP为核心的智能化的闭环控制、图像处理和传输
学位
作为机器学习中当前研究和应用最为广泛的网络模型之一,卷积神经网络在科学研究和民众日常生活的各个方面均展现出了极为广泛的应用前景。基于其权重值共享的网络结构特性,卷积神经网络在模式识别、语音识别等领域的表现尤其突出。然而,随着应用环境的复杂化以及精度要求的不断提高,网络模型的结构愈加复杂,深度也不断加深,因此,深层卷积神经网络在处理相关任务时,面临着轻量化、精确性以及实时性等方面的严峻挑战。针对当前
学位
在生命科学研究中,荧光显微成像技术一直是观察不同样本的微观结构的重要手段。其中以脑为代表的器官成像,由于其兼具数毫米的宏观尺度和微米甚至纳米级的微观结构,对成像方式提出了很高的挑战。相较于以落射式荧光显微镜为代表的传统三维荧光显微镜,光片荧光显微镜具有成像通量高、轴向分辨率高、光漂白和光毒性速率低等优势,近年来在整体器官的解剖学显微成像领域得到广泛应用。然而,当前主流的高斯光片显微镜受制于分辨率与
学位
<正>太阳活动是指太阳大气中由磁场变化引起的各类等离子体加热、运动和辐射增亮现象。太阳大气中最剧烈的活动现象是日冕物质抛射和太阳耀斑,前者可抛射出巨量的磁化等离子体至行星际空间,后者可在短时间内释放出大量的高能辐射和高能粒子,它们是日地空间灾害性天气的扰动源。太阳活动的基本根源是太阳磁场,而太阳磁场由发电机产生,较集中地分布于各类活动区中,或弥散地分布在宁静区中。偏离势场的磁场可以储存能量,当磁结
期刊
小鼠脑三维坐标框架的映射是根据标准的解剖学坐标框架来定义现有数据集的三维解剖学空间,在准确的解剖学定位下进行生物医学问题的具体分析是脑研究的常规手段也是脑神经科学的基础。随着越来越多大规模脑项目的开启以及脑研究的深入,日新月异的成像技术与生物样本处理手段使获取的多模式、跨尺度脑数据集向更高分辨率、更大数据量发展,这给脑参考坐标框架映射的同步与集成带来了更大的挑战。目前在小鼠脑坐标框架映射中仍然存在
学位
随着我国经济快速发展,社会节奏越来越快,每日高速度、快节奏奔波劳碌成为年轻人的主旋律,生活压力越来越大。因此,“慢生活”受到关注,得到年轻人的喜爱。承载着中国传统茶文化的茶艺馆可以使年轻人放慢生活节奏,成为重新审视自身的“第三空间”。品牌视觉识别设计是基于品牌定位、品牌理念以及美学法则所展现的一整套视觉规范,是最能给予消费者直观感受和宣扬品牌内在价值与理念的重要途径。但目前市面上茶艺馆的品牌视觉识
学位
随着技术的不断发展,一部分传统方法不便解决的优化问题涌现出来,即分布式优化。多智能体系统分布式优化的目标为:各智能体仅利用与其邻居的通讯完成对全局目标函数的最小(大)化问题。每个智能体对应一个局部目标函数,全局目标函数为各局部目标函数之和。鉴于带有约束的优化问题的复杂性,目前多数研究成果都是基于无约束的分布式优化。如何更好地解决更加复杂的带有约束的优化问题是个难题。多数文献主要考虑多智能体系统关于
学位
RNA原位成像通常指在完整细胞或者组织水平对数种甚至数百种RNA的三维空间分布状况进行高分辨成像,从而帮助解析细胞功能的基因调控机制,或者研究不同类型细胞的空间组成和功能。针对完整细胞以及组织样本的厚样本三维RNA原位成像要求具备合适的显微光学成像技术以及配套的图像拼接算法。但是,文献报道的RNA原位成像方法,通常是在二维RNA原位成像的基础上进行简单升级,并没有针对厚样本三维RNA原位成像所需的
学位
报纸