高通量组学数据中对抗批次效应的可行性策略研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wjyai333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量组学技术被广泛的应用于生物医学研究中,例如基因标记物的识别、潜在药物靶点的发现和临床预测模型的建立。然而,组学数据的分析常常受到批次效应的影响。批次效应是一种技术混杂因素,它通常会导致假阳性和假阴性的产生,从而阻碍了对高通量组学数据的深入研究,同时给其临床应用带来了严重的挑战。本文主要研究了高通量组学数据中对抗批次效应的可行策略,重点阐明了现有批次效应校正算法在高通量组学数据应用中的实际局限性,并为该领域提供可行的批次效应校正策略。本文的主要研究内容如下:在第1章中,本文首先概述了批次效应是如何产生的、常用的批次效应校正算法、批次效应检测方法以及目前迫切需要解决的重点问题。在第2章中,本文研究了批次效应校正算法的实际局限性,以及什么时候应该关注批次效应?目前已经开发了许多批次效应校正算法来消除批次效应的影响,虽然存在对各种批次效应校正算法性能的比较研究,然而,批次效应校正算法的实际局限性仍有待澄清。本研究使用两种不同的方法来模拟类效应和批次效应,并基于转录组和蛋白质组学平台上各种代表性数据集来测试结果的一致性。结果表明在类效应和批次效应存在中等混淆的情况下,大多数批次效应校正算法表现出较好的鲁棒性,只受上游标准化方法的微弱影响。然而,批次效应校正算法也存在局限性:当类效应和批次效应严重混淆时,批次效应校正算法的性能会显著下降,它们的精度,召回率和批次校正的性能会有所不同。此外,去除批次效应并不能保证最佳的功能分析。以上这些结果在众多的测试数据集中得到了一致的支持。综上结果表明批次效应校正算法都存在一定的局限性,没有一种方法能够适用于所有的情况。在第3章中,关于批次效应的校正算法,本文提出了一种类特异性的Com Bat(CS-Com Bat)算法,并证明了它比目前常用的Com Bat算法在应对批次效应和类效应混杂问题时更具鲁棒性。Com Bat是最广泛使用的批次效应校正算法(BECAs)之一,它基于经验贝叶斯方法来校正批次效应。然而,现有标准的Com Bat在校正批次效应时仅考虑了批次效应的信息,而通常会忽略类(表型)信息。在实验设计不平衡导致批次和类效应混淆的情况下,忽略类信息很可能会导致性能问题。于是,我们提出了一种执行Com Bat的替代策略(CS-Com Bat),该方法的特点是针对每个类中的批次效应进行独立校正,然后合并校正后的数据。我们将CS-Com Bat与其他批次效应校正算法进行综合比较研究。结果表明:CS-Combat在具有批次效应和类效应混淆的真实数据和模拟数据上都优于标准的Com Bat算法,以及其它BECAs,CS-Com Bat实现了批次校正和类效应保持之间更好的平衡。此外,研究发现重新平衡方法“合成少数类过采样技术(SMOTE)”与BECAs协同使用,可以大幅提高BECAs在应对批次效应和类效应混杂问题上的性能。总之,CS-Com Bat是处理批次效应和类效应混淆情况时的一种潜在的有效方法,且与SMOTE协同使用效果更好。在第4章中,本文研究了CS-Com Bat在小样本量高通量组学数据中对于批次效应的校正。由于时间,经费和样本的限制,许多高通量数据样本量相对较小,而现有大多数的批次效应校正算法不适用于小样本量数据。Com Bat是为数不多的可用于处理小样本数据的算法之一。然而,Com Bat也并不完善,因为它通常忽略了类信息,因此,它可能会导致不正确的批次效应推断和移除。相比之下,我们之前提出的CS-Com Bat由于考虑了类信息,在批次效应校正方面可能具有更好的效果。因此,本研究重点评估了在具有挑战性的小样本量情况下,CSCom Bat和其他Com Bat的性能。结果表明,在小样本量数据的情况下,在具有真实和模拟批次效应的测试基因组和蛋白组数据集中,CS-Com Bat相比于其他的方法能够更加彻底地消除批次效应,并且提供更高的召回率和样本间的相似性。何时使用Com Bat或CS-Com Bat取决于分析的需求:当需要高的精度时(例如:设计药物靶标),Com Bat是一个优先的选择。但当需要高的召回率时(例如:了解疾病的机制),CS-Com Bat是更优的选择。在第5章中,我们对本文的工作进行了总结和展望,并强调了本文的创新之处。综上所述,本文全面研究了高通量组学数据中批次效应校正的算法的实际局限性,并提供了潜在有效的批次效应校正策略。这些发现将有助于研究者更加关注批次效应的问题,减轻批次效应对他们实验的影响,并为鉴定基因标记物和药物靶标提供潜在的应用。
其他文献
反钙钛矿型立方Fe4N因具有高饱和磁化强度、高居里温度、高自旋极化率、良好的延展性和抗腐蚀性能,在自旋电子学领域具有广泛的应用前景。高密度、低能耗和高速度是下一代自旋电子器件的关键特征。然而,Fe4N的面内磁各向异性限制了其在自旋电子器件上的实际应用。因此,通过掺杂工程、应变工程和界面工程等手段调控Fe4N薄膜的结构、磁性和自旋相关输运特性具有重要的研究价值。本论文以对向靶反应溅射的Fe4N薄膜为
学位
目的探讨肠道粘膜上皮细胞特异性呈递肠道细菌抗原并诱发局部和全身性免疫和病理反应,制备 AS 的精确动物模型—HLA—B27转基因鼠,研究 AS 病变的发病机理。方法 1.显微注射用 B27、2-icroglobulin(2-m)基因的制备;2.大、小鼠受精卵的显微注射;3.鼠尾基因组 DNA 的提取; 4.PCR 检测;5.Southern blotting 检测。结果 1.通过显微注射技术,将上
会议
背景:小胶质细胞是中枢神经系统(CNS)中特异性存在的一类免疫细胞,是各种急性脑损伤中最先做出反应的非神经元细胞。其通常处于静息状态,并在脑损伤、感染和各种神经炎症刺激的情况下被激活并变形成为阿米巴样形态。这种小胶质细胞活化的动态变化过程在生理学上被称为极化过程。研究发现小胶质细胞活化后,可以分泌趋化因子、细胞因子以及其他免疫调节分子。这些分子在退行性脑病、原发性或继发性脑损伤中发挥着重要作用。小
学位
有机场效应晶体管(Organic Field Effect Transistors,OFETs)作为现代有机逻辑电路的基本构建模块,因其特殊的电荷输运机制和在大面积柔性有机电子产品中广阔的应用前景俨然已成为有机电子学的前沿科学。然而该领域仍存在着一些亟待解决的深层次的科学问题,如“OFETs的非理想电学行为”。近些年来随着材料和纳米科学的迅速发展,被报道的OFETs,尤其是高迁移率的器件,大多呈现
学位
外转子轮毂电机采用直接驱动方式,无减速驱动装置,结构紧凑,轴向尺寸相对减速驱动轮毂电机小。外转子轮毂电机直接安装在轮毂内,采用封闭式结构。轮毂电机内部空间狭小,受空间体积限制,轮毂电机电磁负荷过高引起自身温度升高,若缺少良好的散热装置或冷却结构欠佳会致使轮毂电机定子铁芯局部温度过高、永磁体永久不可逆退磁、铜绕组绝缘热老化,严重时甚至会因绕组烧毁而导致轮毂电机故障。因此,为保证外转子轮毂电机可靠、安
学位
传统无机纳米颗粒因其三维结构不确定的劣势,导致人们很难在原子层面精确了解其配位信息,妨碍了对纳米材料表面催化机理及界面电荷转移等性质的深入理解,从而阻碍了基础研究的发展进程。原子精度的Au团簇因其原子配位精确可控,在深入理解其构效关系方面展现出巨大的优势。随着Au团簇的合成方法学不断发展,目前人们已经实现了通过转换表面配体以及金属位点等手段调控其物化性能,为材料的结构调控、性能开发以及应用拓展提供
学位
天然产物(来源于如植物、微生物和动物等)在结构上通常具有多样性,这使得它们能够与临床药物更具有相关性而成为新药候选物。目前为止,仍有大量的天然产物未被研究和探索,如今,不只是传统的研究方法被用于未知天然产物的探索研究,随之而来的是,新的技术手段也被不断的开发探索。为了探索较少被研究的生物中未被报道的天然产物,本论文结合了传统的研究方法以及基于分子网络分析和统计学分析的代谢组学策略,从而发现和分离出
学位
为应对未来高渗透率可再生能源、去中心化供给、多能协同互补的建筑能源系统高效、灵活、可靠运行对建筑负荷预测提出的高要求,数据驱动的建筑负荷预测模型凭借高精度、高计算效率以及低使用成本等优势得到了广泛重视与研究。然而,在工程实际中,纯粹依靠数据驱动构建的模型在很多基础数据不完备的场景下难当重任,通常表现为特征变量数据不完备时的弱拟合能力和训练样本数据不完备时的弱泛化能力。而在建筑能源领域里领域知识(如
学位
能源危机和气候变暖已经威胁了人类的生存,为实现可持续发展,寻求一种绿色节能的制冷方式势在必行。辐射冷却技术不消耗额外能源,也不产生环境污染,是一种极具发展前景的被动式冷却技术。作为辐射冷却技术的重要组成部分,风屏可以抑制高温环境对辐射冷却装置的非辐射换热,是实现低于环境温度冷却的关键因素。此外,选择性风屏还可以有效处理太阳光,使不具备太阳光反射特性的发射体实现日间辐射冷却,降低了对发射体光谱特性的
学位
随着电子产品更新换代速度的加快,废弃印刷线路板(Waste Printed Circuit Board,WPCB)的数量迅速增加,因此,对其减量化、资源化、无害化处理的要求也越来越迫切。热解处理法具有金属和非金属回收纯度及回收率高、回收处理过程二次污染风险小等优点,已成为废弃印刷线路板资源化回收的主要途经之一。针对印刷线路板热解过程反应机理复杂、热解油资源化利用难度大的现状,本文通过理论分析、数值
学位