肺癌患者鼻粘膜上皮细胞基因表达差异的WGCNA探讨与实验验证

来源 :厦门大学 | 被引量 : 0次 | 上传用户:purplerain9112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景与目的:肺癌是全球范围内癌症死亡的主要原因,每年全球因患肺癌死亡的人数超过一百万。由于缺乏有效的早期肺癌的诊断手段,肺癌患者的5年死亡率高达80%。传统的病理生理研究以单基因及其转录、蛋白质的功能特点为基础,从分子水平上解释生命机制,但仅限于局部。生物网络可以直观展现生物系统中各局部功能部门之间的相互联系,从整体上对生物系统进行深入、全面的研究。加权基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA)利用了系统生物学的思想寻找基因之间表达的相似性,并将表达高度相关的基因确定为一个基因模块。目前已有一些研究支持,肺癌患者甚至部分吸烟者的气道上皮的损害延伸到了鼻,这有利地提示,利用鼻基因表达作为肺癌检测的非侵入性生物标志物的可能。因此,从鼻腔上皮细胞中识别有意义的共表达基因簇可能有助于肺癌患者的筛查。本研究基于公共微阵列数据集(数据集GSE80796,从GEO下载),进行WGCNA探讨、计算基因模块特性的相关性并进行qRT-PCR技术定量顶级枢纽基因表达的实验验证。材料与方法:基于公共微阵列数据集GSE80796进行WGCNA分析以及模块性状的相关性计算。该数据集中包含505个样本,共32321个基因。选取了 196个肺癌鼻粘膜上皮细胞样本的5000个基因,其中96个是肺癌鼻粘膜组织样本,另100个为相应的肺正常鼻粘膜组织样本。使用Limma软件包中的RMA、SVA和T-test来筛选差异表达基因(DEGS),共得到3600个差异表达基因。根据选择的不同样本表达数据,得到四组不同的差异表达基因,对这四组差异表达基因构建了四个不同的共表达网络,分别是混合数据组一、混合数据组二、男性特定数据和女性特定数据组,分别从特征基因模块中计算提取15个、25个、10个和10个枢纽基因。使用qRT-PCR技术定量验证基于混合数据组二WGCNA分析计算得到的12个顶级枢纽基因。利用SYBR GREEN I法对80例鼻粘膜拭子的WGCNA分析的12个相关基因的表达进行定量研究,实验分为三组:正常对比组30例,肺癌组32例,肺癌术后组18例。分别进行荧光定量PCR技术是通过荧光染料或荧光标记的特异性探针,对PCR产物进行标记跟踪,实时监控反应过程。随着PCR反应的进行,反应产物不断累积,荧光信号强度也等比例增加。每经过一个循环,收集一次荧光强度信号,这样就可以通过荧光强度变化监测产物量的变化,结合相应的软件分析,可以得到荧光扩增曲线,计算待测样品初始模板的量。当在荧光定量PCR检测系统中引入内参基因同时与目的基因检测,依据2-△ △Ct法计算出一个待测样本中目标核酸序列与校正样本中同一序列表达的相对变化。实验结果进行均数T检验统计学分析与比较(welch校正与Tamhane’s T2检验),确定肺癌鼻粘膜基因表达的差异性(P<0.05)。结果:1.WGCNA从混合数据组一的差异表达基因中构建了 9个共表达模块,其中与患癌状态关联性最强的是黑,黄,绿,蓝和浅蓝5个模块。GO通路富集结果显示,黑色模块的基因主要富集于GO:0006955(免疫应答)、GO:0034341(对干扰素γ的反应)和GO:0008009(趋化因子活性);而蓝色模块基因主要富集蛋白运输过程GO:0005654(核质)、GO:0005813(中心体)和GO:0046872(金属离子结合);浅蓝色模块的基因主要富集在GO:0042384(纤毛组装)和G0:0060271(纤毛形态);黄色模块的基因主要富集受体激活,包括GO:0004984(嗅觉受体激活)和GO:0004930(G-蛋白偶联受体激活)。IFI44L,THOK2,N EK11和CCDC144CP分别为四个模块的顶级枢纽基因。2.WGCNA从混合数据组二的差异表达基因中,构建了四个特定的LC模块,包括蓝色,棕色,黄色和浅蓝色,蓝色和棕色模块特征基因在各自模块内显示出很强的关联性。我们的分析结果表明HCK,NCF1,TLR8,EMR3,CSF2RB和DYSF基因是棕色模块中最重要的中枢基因,而SPEF2,ANKFN1,HYDIN,DNAH5,C12orf55,CCDC113基因分别是按照等级排列的顶级枢纽基因。3.鼻粘膜荧光定量PCR验证12个顶级枢纽基因表达实验发现,8个基因表达在肺癌与对照组之间具有显著性差异(0.05%),分布在肺癌与对照组间有6个基因(HCK、NCF1、TLR8、EMR3、CSF2RB、DYSF),肺癌术后与对照组有4个基因(HCK、CSF2RB、SPEF2、C12orf55);肺癌与肺癌术后组有2个基因(EMR3、C 12orf55)。在肺癌与对照组之间基因表达差异明显的是黏液蛋白样激素受体基因EMR3,Tamhane’ s T2/P值为3.051/0.000和中性粒细胞胞浆因子1(NCF1)基因,Tamhane’s T2/P 值为 2.937/0.001。4.在对男性、女性特定数据集的聚类树进行重复性分析时发现,基于男性、女性样本组特定的数据集,共识模块特征基因和临床特点表现出显著的相关性(P<0.05),而基于男女混合数据集时,共识模块特征基因与临床特征之间的关系表现为无相关(P>0.05)。分别对男性和女性特定表达谱数据的WGCNA,在男性特定数据中检测到与肺癌状态显著相关的黑色和绿色模块;同样,棕色模块被检测为女性特定基因表达谱中与肺癌患癌状态有意义的模块。进一步分析,从绿色基因模块内识别出个可能对肺癌发生有关键作用的10个枢纽基因,关联性由强到弱分别为 SP100、XAF1、EPSTL1、PARP9、APOL6、SAMD9L、MX1、BST2、GBP1、C MPK2。从棕色模块内识别出个可能对肺癌发生有关键作用的10个枢纽基因,关联性由强到弱分别为 PNPLA2、GAK、RNF31、ATG9A、EPS8L2、LLGL2、RABGGTA、TMEM63B、BRPF1、AP3D1。富集分析结果显示,男性数据集中注释系统中的富集术语主要与免疫反应和感染有关,女性数据集中注释系统中的富集术语主要与嗅觉转导有关。结论:1.WGCNA能够发现具有生物学意义的基因模块,并能深入挖掘枢纽基因、基因之间的调控及对肿瘤发生发展的影响。2.鼻粘膜上皮细胞 HCK、NCF1、TLR8、EMR3、CSF2RB、DYSF、SPEF2、C12orf55八个基因表达异常可能成为肺癌检测的非侵入性生物标记物;其中EMR3、C12o rf55二个基因表达异常可能用来观察术后肺癌治疗疗效情况。3.基于男性、女性样本组特定的数据集,共识模块特征基因和临床特点表现出显著的相关性,而对基于男性-女性混合样本数据集,共识模块特征基因与临床特征之间的关系表现无相关,说明了特征模块与性别相关的异质性。4.加权基因共表达网络分析与PCR验证基因表达量的结果具有一致性。
其他文献
复合非线性反馈控制是针对具有输入饱和约束系统跟踪控制问题的控制系统设计技术,其目标是在实现跟踪控制的同时提高闭环系统的瞬态性能,使瞬态性能实现快速响应的同时保持输出超调很小甚至没有超调。当前复合非线性反馈控制方法主要用于解决具有输入饱和约束的线性系统跟踪控制问题,在非线性系统以及多智能体系统的应用还未充分展开。有鉴于此,本文将复合非线性反馈技术框架扩展到几类非线性系统以及多智能体系统。论文主要关注
随着科学技术的发展,特别是计算机、工业、网络等的飞速发展,使得全球商业、医疗、工业、金融和生活娱乐等各领域的数据和信息量呈指数增长。因此,对这些具有不确定性的海量数据进行归纳、总结,科学有效的发现其隐含的有价值的知识,已成为智能信息处理研究中一个极为重要课题。多粒度粗糙集理论作为一种能有效处理不确定问题的粗糙集拓展理论,它利用粒计算和粗糙集理论通过多个粒度空间来近似刻画目标决策,从更精细的角度处理
纽结理论和平图理论可看作特殊的嵌入图理论.上世纪末本世纪初,纽结理论分别拓展到虚拟纽结理论和空间图理论,平图理论拓展到带子图理论.带子图实际上等价于胞腔嵌入图.最近,虚拟纽结理论和空间图理论被统一为虚拟空间图理论.经典纽结理论和虚拟纽结理论的发展促进了带子图理论的发展,例如,提出了部分对偶的概念.本文围绕以上几类嵌入图及其多项式展开研究.本文的主要工作和创新点如下:(1)Huggett和Moffa
大多数真核生物的体细胞是二倍体,仅含有两组染色体,遗传自父本和母本。而一些特定组织如心脏、肝脏等含有多倍体细胞,尤其是肝脏组织含有较高比例的多倍体。肝脏是机体清除毒性代谢物的器官,而毒性代谢物易诱发基因突变,多倍体被认为有利于提供代偿性的正常基因来维持肝脏稳态,但进行增殖分裂将导致异倍体的产生,引起基因组的不稳定性和肿瘤发生发展。故此,对机体调控多倍体细胞的产生以及多倍体细胞进行细胞分裂的调控机理
一致性问题已经成为多智能体系统协调控制中的一个热点也是一个最基本的问题。一致性问题的关键是如何设计合适的用来描述每个智能体及其邻居之间的信息交换过程的协议或算法,从而使得所有多智能达到某个期望的状态。分数阶系统作为整数阶控制系统的扩展,可以提高对实际动态系统的表征、设计以及控制的能力,目前已成为控制领域的一个研究热点。本文基于目前的研究成果,把分数阶微积分模型引入到多智能体系统的一致性控制问题中,
假设M是图G的一个完美匹配,M(G)是图G所有完美匹配的集合.图的完美匹配计数问题(即计算.M(G)的基数)是图论的一个重要研究课题.然而,Valiant证明了图的完美匹配计数问题是#P-完全的.但是,如果图G是一个Pfaffian图,那么就能在多项式时间内算出|M(G)|的大小(及其相关问题).图G被称为是一个Pfaffian图如果图G存在一个Pfaffian定向,即图G存在一个定向G使得图G的
细胞基质蛋白Periostin(POSTN)在实体瘤如乳腺癌、结直肠癌、胃癌等肿瘤微环境中发挥重要功能。我们前期研究表明POSTN在人及小鼠B细胞急性淋巴细胞白血病(B-ALL)骨髓中高表达,POSTN基因敲除可抑制小鼠B-ALL的发生,且POSTN可能来源于骨髓间充质基质细胞(BM-MSCs)而非B-ALL细胞。在本论文中,我们进一步研究了 POSTN蛋白在B-ALL发生过程中的作用机制。我们发
遗传密码控制着生物体生长及繁殖等生物学过程,因此遗传密码的起源问题自然而然成了生命起源研究中最基本的问题之一。在有关生命起源的化学和考古研究的基础上,Lost City热液区(pH 9~11)被认为是地球生命起源的潜在地点。值得注意的是,遗传密码只有在生物体合成肽过程中发挥作用,基于此,遗传密码起源或许与前生源多肽合成有着某种关联性。因此,基于磷酸盐三偏磷酸盐(Trimetaphosphate,P
近年来使用高频数据对协方差矩阵进行建模分析受到广泛关注,然而高频数据统计量的估计很容易受到测量误差的影响,进而在建模过程中会出现变量包含测量误差问题。基于该类问题的相关研究缺乏,本文试图构建一个考虑测量误差的已实现协方差矩阵预测模型,以减小测量误差的影响。在已实现协方差矩阵建模过程中为便于考虑测量误差问题,本文借鉴DCC的方法将已实现协方差矩阵分解为已实现方差矩阵和已实现相关系数矩阵,通过本文提出
众所周知,对于求解对称不定的线性系统,Bunch-Kaufman算法,有界的Bunch-Kaufman算法和Aasen算法是近来使用最广泛的三种算法.但是这三种算法都存在相应的数值不稳定性.例如,由Bunch-Kaufman算法得到的元素增长因子可能呈现指数增长,且由这个算法产生的单位下三角矩阵L中的元素可能无界;而对于有界的Bunch-Kaufman算法,其计算复杂度在达到最坏的情形,会和Bun