基于自检验与竞争性检验整合算法的基因集分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 1次 | 上传用户:handan0918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因集分析(gene set analysis,GSA)是一类常用的多变量分析方法,其检验效能通常高于常规的单变量分析方法,因此被广泛的应用于差异表达基因的筛选、目标基因集的功能富集分析和通路分析当中。近年来,人们不仅使用基因集分析方法对基因的表达差异进行分析,还同时对基因间的相关性改变进行分析,并且结合先验的生物学网络以便提高检验效能、更好的解释生物学现象,具有越来越广阔的应用空间。
  然而,绝大多数的基因集分析方法都选择性的使用了“自检验方法”(self-contained methods)或者“竞争性检验方法”(competitive methods)对基因集进行检验,却没有充分的考虑到这两种检验方法对数据的指标特征有着截然不同的要求。此外,不同的基因集分析方法在计算过程中还会对数据的方差和样本含量等指标进行假设,当假设条件与实际数据不符时,同样会导致现有基因集分析方法的假阳性率居高不下。为了解决这些问题,本文利用先验的生物学网络构建了自检验和竞争性检验的整合分析方法(Self-cantained and Competitive Intergrated Analysis,SCIA),旨在解决现有基因集分析方法适用范围不足和假阳性偏高的问题。
  针对竞争性检验方法处理基因间相关性较高的数据时假阳性率偏高的问题,本文构建了自检验统计量C,并通过一系列模拟实验对本方法的性能进行验证。在处理基因间相关系数为0~0.9的模拟数据时,本方法能够正确的控制假发现率为5%,同时平均敏感性(约0.35)也不低于ROAST(limma软件包)等自检验方法(约0.35)且更加稳定,不会随着相关系数的改变而发生大幅度的波动;在处理基因间相关性发生改变的数据时,本方法对样本量大于50的数据能够在保证假阳性率为5%的前提下,获得高于ROAST等方法一倍以上的敏感性。上述结果说明本方法能够有效避免竞争性检验方法的缺陷,为后续的自检验与竞争性检验方法的整合算法提供了基础。
  针对自检验方法处理差异表达基因比例较高的数据时假阳性率偏高的问题,本文利用先验的生物学网络将自检验统计量C和全新的竞争性检验方法进行整合,构建了SCIA方法,并通过一系列模拟实验对本方法的性能进行验证。在处理差异表达基因比例为20%~60%的数据时,本方的假阳性率(0.09~0.16)不高于GSEA等竞争性检验方法(0.12~0.15),而敏感性(0.76~0.82)则明显高于其它方法(0.53~0.58);在处理基因间相关系数为0~0.9的数据时,本方法能够正确控制假发现率(小于0.05)而GSEA等方法则会在相关性接近于1时都会放大假阳性率(约为0.1~0.4),且本方法敏感性(约0.25~0.3)略高于其它方法(约0.2~0.3)。上述结果说明本方法能够同时避免竞争性检验方法和自检验方法的缺陷,而对先验的生物学网络的利用则意味着本方法的检验效能可以随着生物学网络的逐步完善而逐渐提高。
  由于现有方法无法处理样本含量极小(如n=2)的数据,本方法构建了基于倍数差异改进算法(Adjusted Fold-Change,AFC)的SCIA-AFC方法,并通过模拟数据和真实数据对本方法的性能进行验证。在模拟实验中保证假发现率小于5%的情况下,AFC方法的敏感性能比传统的FC方法高出约50%;在对真实数据进行分析时,AFC方法所得结果与金标准的一致性超过60%,也高于传统的FC方法(约40%)。上述结果说明AFC方法比FC方法更适用于高维度小样本的数据分析。
  最后,使用SCIA方法对两套肺鳞癌的表达谱数据和两套miR-1转染实验的表达谱数据进行分析。首先,本方法能够得到了超过61个能被已有文献支持的GO注释或KEGG功能通路,传统的超几何检验和GSEA方法仅能找到其中的7个;其次,本方法在对同类型数据进行分析时得到了超过40%的一致结果,而超几何检验与GSEA则只能得到约10%~20%的一致结果。最后,本方法在利用不同的靶基因预测数据库对miR-1的转染实验数据进行分析时,所得结果的一致性同样能够超过50%。上述结果说明本方法所得结果具有较高的准确性且不同于传统方法所得结果,能够对现有的基因集分析方法进行有效的补充;并且能够对先验的生物学信息选择性的使用,以减小已知生物学信息中的假阳性结果对本方法的影响。
  综上所述,本文基于自检验与竞争性检验的整合算法,提出了一种广泛适用的基因集分析方法,能够正确处理具有不同指标特征的表达谱数据,还能对所得结果进行深入的生物学解释。本方法不仅能够得到大量准确而新颖的结果,对现有方法进行有效的补充;还能降低不同数据、不同先验的生物学信息对结果的影响,便于人们将不同研究所得结果进一步的整合。基于本项研究的R语言软件包“SCIA”(见附录1和附录2)能够在Github网站免费下载:https://github.com/YiqunLiHIT/SCIA。
其他文献
学位
学位
学位
学位
学位
学位
角膜属于承载组织,具有典型的粘弹性特征。疾病(如圆锥角膜)或手术(如角膜交联术、角膜屈光术等)均可使角膜组织结构发生变化,进而使角膜力学性能发生改变。基质细胞如何适应这种改变、并与细胞外基质之间相互作用与疾病发生发展及术后角膜基质重塑密切相关。PDMS是一种常用的模拟生物软组织力学性能的聚合高分子材料,本文通过不同硬度PDMS模拟角膜基力学性能的变化,研究了角膜成纤维细胞在不同力学环境下的生物学行
学位
微量生物分子的准确可靠检测对于阐明各种生理和病理过程起着至关重要的作用,对于全球疾病管理和医疗系统的发展有着重大意义。近几十年来,研究者们已经提出了许多超敏生物传感检测平台,但对于复杂的实际样品中表达量极低的生物分子和本身比较活泼、难以捕获信号的活性分子的分析检测仍然面临巨大的挑战。电化学传感分析技术由于灵敏度高、操作简便、响应速度快、成本低且易于微型化等优点,成为生物分子检测常用技术手段。传感界
脊髓损伤(SCI)和多发性硬化(MS)等脱髓鞘疾病给患者带来不同程度的运动障碍,疾病严重时会造成患者半身不遂和完全瘫痪。然而临床上针对脱髓鞘疾病的治疗非常有限。髓鞘遭到破坏后产生的髓鞘碎片是刺激炎症反应和抑制神经修复造成继发性损伤的重要因素,因此阐明清理髓鞘碎片的细胞分子机制可能会有助于指导脱髓鞘疾病的临床治疗。目前已知骨髓来源的巨噬细胞是在脊髓损伤中心清理髓鞘碎片的主要细胞,但它们被募集到损伤中
音高感知对于感知音乐,在多人交谈中分辨说话人,以及理解语音均有非常重要的意义。音高在汉语中的四种声调是随时间变化的,具有表意的作用,准确的感知时变音高对于正常交流和社会生活均非常重要。音乐和语音中的音高感知主要来自谐波,而这些谐波依据能否被耳蜗基底膜滤波器分开可分为低频可分解谐波和高频不可分解谐波,它们的共同作用使得正常听力的听者能很好地感知音乐及声调语言。听觉损失的人群和老年人对声调感知有障碍,
学位