论文部分内容阅读
目的:
本研究对多组帕金森病(Parkinson’s disease,PD)患者脑黑质和全血芯片数据集利用生物信息学分析探索与之有关的差异基因及其差异基因主要参与的分子信号通路和基因互作网络,并筛选在黑质和全血中存在的共同差异基因,获得在全血中可能参与PD的发生发展的生物标志物,并用分子生物学实验对候选基因进行实验验证。我们的首要目标是发现PD的病理通路特别是发现可能与PD的发生有关的在血中候选生物标志物。
方法:
根据研究目的,我们检索GEO数据库的基于黑质和全血转录组微阵列数据集的PD病例对照研究,使用R软件对纳入芯片数据集转换和拒绝不合格的数据,对数据进行校准,标准化和log2转换等数据前期处理。通过发现和复制两阶段和利用Robust Rank Aggregation(RRA)生物信息学方法对多组转录组芯片数据进行整合分析,最后获得与PD有关的差异基因。
对于获得的差异基因,利用Metascape在线分析网站获得差异基因的功能富集分析和构建蛋白质-蛋白质网络互作图,且认为P值<0.05是具有统计学意义,选取显著性前二十个富集分析为选取的差异基因的主要富集通路。构建的蛋白质-蛋白质网络互作图进一步应用分子复合物检测(Molecular Complex Detection,MCODE)算法来识别密集连接的网络组件,获得其网络中的关键组分功能。
最终用qRT-PCR技术检测筛选的候选基因在50个PD和50个健康对照的全血表达情况,对其验证成功的候选生物标志物使用Statistical Product and Service Solutions(SPSS,版本22.0)对其进行受试者工作特征曲线(receiver operating characteristic curve,ROC)分析以确定特异性和灵敏度,并计算ROC曲线下的面积(AUC)作为分类性能指标。并用Spearman相关性分析对候选基因与疾病的患病病程和帕金森病的Hoehn-Yahr分级的相关性进行了分析。
结果:
1.基于微阵列的转录数据集的获取
我们共检索了8个黑质数据集和3个血液数据集,包括来自146个黑质和571个血液样本的总共2100万个数据点。在黑质两个阶段分析的划分中,发现阶段4个数据集,分别是GSE7621、GSE8397、GSE43490和GSE20163;其余的4组是复制阶段,分别是GSE20164、GSE20292、GSE20333和GSE49036。对于血液数据集来说,较大样本量(GSE99039;207例患者和233例对照)被分配到发现阶段;另外两组是复制组,分别是GSE6611和GSE72267。
2.使用整合生物信息学方法鉴定帕金森在黑质中的差异表达基因
在差异倍数(fold change,FC)>1.5和P<0.05作为筛选阈值,通过RRA方法整合分析,在发现阶段四组数据分析中得出320个差异基因,68个上调基因,252个下调基因,最终复制阶段验证出96个差异基因,上调基因5个,下调基因91个。黑质中验证出差异基因获得PD的黑质差异基因包括5个上调基因和91个下调基因。
3.黑质差异表达基因的功能富集分析和蛋白质互作网络分析
我们通过功能富集分析发现来自脑黑质的下调的差异表达基因(differentially expressed genes,DEGs)主要富集功能在化学性突触传递,儿茶酚胺代谢过程,行为,含邻苯二酚的化合物代谢过程,多巴胺代谢过程,神经肌肉过程等,并且这些生物过程都是密切相关的。由于我们复制阶段成功复制的上调差异基因较少,未获得上调基因的富集功能。
在96个DEGs中,共有39个下调的DEGs被拟合到蛋白质互作(protein-protein interactions,PPI)复合网络中,PPI网络分析表明,它们主要富集在儿茶酚胺代谢过程、多巴胺代谢过程、化学突触传递、突触信号传递等过程中。并识别了三个MCODE网络模块,MCODE-1、-2和-3的组成基因分别参与了核有丝分裂器向有丝分裂中心体、肽配体结合受体和G蛋白门控钾通道的等途径和过程。
4.帕金森在全血中的转录组芯片数据集分析
在FC>1.2和P<0.05作为筛选阈值,从全血发现阶段共获得127个DEGS,包括74个上调基因和53个下调基因。在复制阶段验证后,最终鉴定出14个基因,包括8个上调基因和6个下调基因。对差异基因的进一步功能富集分析我们只获得血液上调基因在中性粒细胞脱颗粒和白细胞迁移途径。
5.用于发现分子标志物的黑质和血液数据集的整合分析
为了最大限度的获得PD在全血中更加稳定更加真实的生物标志物,我们筛选了在黑质和血液中所重叠出现的DEGs。为了适应血液环境,黑质的阈值也被降低到FC>1.2,P<0.05。血液和黑质转录数据的综合分析在发现阶段发现了7个DEGS,2个下调基因,5个下调基因。但结合发现阶段和复制阶最终只有两个下调基因LRRN3和TUBB2A在第二阶段被复制成功,LRRN3在黑质和血液中的总体FC值分别为1.46(P=8.26×10-5)和1.32(P=2.46×10-5),TUBB2A的FC值分别为1.49(P=2.93×10-6)和1.40(P=1.99×10-6)。
6.LRRN3和TUBB2A作为PD全血生物标志物的验证
为了验证LRRN3和TUBB2A作为PD潜在的血液分子生物标志物,我们用qRT-PCR技术检测了50例散发性PD患者和50例对照患者全血中mRNA的表达水平。结果表明,PD患者全血中TUBB2A的mRNA水平明显低于对照组(P=7.30×10-5)。相反,在LRRN3的表达中,病例与对照组之间没有显着性差异。在TUBB2A的ROC曲线分析中,灵敏度为0.72,特异性为0.70,AUC为0.730[95%置信区间(confidence interval,CI),0.632-0.828],并用Spearman相关性分析对TUBB2A表达与疾病持续时间或Hoehn-Yahr量表结果表明TUBB2A表达与疾病持续时间或Hoehn-Yahr量表的不存在显著性相关(rs=-0.177和0.117,P=0.218和0.420)。
结论:
1.黑质芯片研究中成功复制成功96个差异基因,并其富集功能和PPI网络分析主要在化学突触传递、儿茶酚胺代谢过程、行为、神经递质传递和梭菌毒素的神经毒性等通路和途径,预测这些可能与PD病理生理有密切相关。
2.在PD的全血分析得到14个差异基因,其主要富集功能在中性粒细胞脱粒和白细胞迁移。
3.TUBB2A、LRRN3作为PD脑黑质和全血共同的差异基因,并且TUBB2A在PD患者的全血表达水平显著降低得到实验验证并获得较好的分类效能,其与Hoehn-Yahr量表或疾病持续时间不具有相关性,这提示TUBB2A是独立的疾病指标,可能作为潜在的生物标志物对帕金森病的诊断有一定的作用。
本研究对多组帕金森病(Parkinson’s disease,PD)患者脑黑质和全血芯片数据集利用生物信息学分析探索与之有关的差异基因及其差异基因主要参与的分子信号通路和基因互作网络,并筛选在黑质和全血中存在的共同差异基因,获得在全血中可能参与PD的发生发展的生物标志物,并用分子生物学实验对候选基因进行实验验证。我们的首要目标是发现PD的病理通路特别是发现可能与PD的发生有关的在血中候选生物标志物。
方法:
根据研究目的,我们检索GEO数据库的基于黑质和全血转录组微阵列数据集的PD病例对照研究,使用R软件对纳入芯片数据集转换和拒绝不合格的数据,对数据进行校准,标准化和log2转换等数据前期处理。通过发现和复制两阶段和利用Robust Rank Aggregation(RRA)生物信息学方法对多组转录组芯片数据进行整合分析,最后获得与PD有关的差异基因。
对于获得的差异基因,利用Metascape在线分析网站获得差异基因的功能富集分析和构建蛋白质-蛋白质网络互作图,且认为P值<0.05是具有统计学意义,选取显著性前二十个富集分析为选取的差异基因的主要富集通路。构建的蛋白质-蛋白质网络互作图进一步应用分子复合物检测(Molecular Complex Detection,MCODE)算法来识别密集连接的网络组件,获得其网络中的关键组分功能。
最终用qRT-PCR技术检测筛选的候选基因在50个PD和50个健康对照的全血表达情况,对其验证成功的候选生物标志物使用Statistical Product and Service Solutions(SPSS,版本22.0)对其进行受试者工作特征曲线(receiver operating characteristic curve,ROC)分析以确定特异性和灵敏度,并计算ROC曲线下的面积(AUC)作为分类性能指标。并用Spearman相关性分析对候选基因与疾病的患病病程和帕金森病的Hoehn-Yahr分级的相关性进行了分析。
结果:
1.基于微阵列的转录数据集的获取
我们共检索了8个黑质数据集和3个血液数据集,包括来自146个黑质和571个血液样本的总共2100万个数据点。在黑质两个阶段分析的划分中,发现阶段4个数据集,分别是GSE7621、GSE8397、GSE43490和GSE20163;其余的4组是复制阶段,分别是GSE20164、GSE20292、GSE20333和GSE49036。对于血液数据集来说,较大样本量(GSE99039;207例患者和233例对照)被分配到发现阶段;另外两组是复制组,分别是GSE6611和GSE72267。
2.使用整合生物信息学方法鉴定帕金森在黑质中的差异表达基因
在差异倍数(fold change,FC)>1.5和P<0.05作为筛选阈值,通过RRA方法整合分析,在发现阶段四组数据分析中得出320个差异基因,68个上调基因,252个下调基因,最终复制阶段验证出96个差异基因,上调基因5个,下调基因91个。黑质中验证出差异基因获得PD的黑质差异基因包括5个上调基因和91个下调基因。
3.黑质差异表达基因的功能富集分析和蛋白质互作网络分析
我们通过功能富集分析发现来自脑黑质的下调的差异表达基因(differentially expressed genes,DEGs)主要富集功能在化学性突触传递,儿茶酚胺代谢过程,行为,含邻苯二酚的化合物代谢过程,多巴胺代谢过程,神经肌肉过程等,并且这些生物过程都是密切相关的。由于我们复制阶段成功复制的上调差异基因较少,未获得上调基因的富集功能。
在96个DEGs中,共有39个下调的DEGs被拟合到蛋白质互作(protein-protein interactions,PPI)复合网络中,PPI网络分析表明,它们主要富集在儿茶酚胺代谢过程、多巴胺代谢过程、化学突触传递、突触信号传递等过程中。并识别了三个MCODE网络模块,MCODE-1、-2和-3的组成基因分别参与了核有丝分裂器向有丝分裂中心体、肽配体结合受体和G蛋白门控钾通道的等途径和过程。
4.帕金森在全血中的转录组芯片数据集分析
在FC>1.2和P<0.05作为筛选阈值,从全血发现阶段共获得127个DEGS,包括74个上调基因和53个下调基因。在复制阶段验证后,最终鉴定出14个基因,包括8个上调基因和6个下调基因。对差异基因的进一步功能富集分析我们只获得血液上调基因在中性粒细胞脱颗粒和白细胞迁移途径。
5.用于发现分子标志物的黑质和血液数据集的整合分析
为了最大限度的获得PD在全血中更加稳定更加真实的生物标志物,我们筛选了在黑质和血液中所重叠出现的DEGs。为了适应血液环境,黑质的阈值也被降低到FC>1.2,P<0.05。血液和黑质转录数据的综合分析在发现阶段发现了7个DEGS,2个下调基因,5个下调基因。但结合发现阶段和复制阶最终只有两个下调基因LRRN3和TUBB2A在第二阶段被复制成功,LRRN3在黑质和血液中的总体FC值分别为1.46(P=8.26×10-5)和1.32(P=2.46×10-5),TUBB2A的FC值分别为1.49(P=2.93×10-6)和1.40(P=1.99×10-6)。
6.LRRN3和TUBB2A作为PD全血生物标志物的验证
为了验证LRRN3和TUBB2A作为PD潜在的血液分子生物标志物,我们用qRT-PCR技术检测了50例散发性PD患者和50例对照患者全血中mRNA的表达水平。结果表明,PD患者全血中TUBB2A的mRNA水平明显低于对照组(P=7.30×10-5)。相反,在LRRN3的表达中,病例与对照组之间没有显着性差异。在TUBB2A的ROC曲线分析中,灵敏度为0.72,特异性为0.70,AUC为0.730[95%置信区间(confidence interval,CI),0.632-0.828],并用Spearman相关性分析对TUBB2A表达与疾病持续时间或Hoehn-Yahr量表结果表明TUBB2A表达与疾病持续时间或Hoehn-Yahr量表的不存在显著性相关(rs=-0.177和0.117,P=0.218和0.420)。
结论:
1.黑质芯片研究中成功复制成功96个差异基因,并其富集功能和PPI网络分析主要在化学突触传递、儿茶酚胺代谢过程、行为、神经递质传递和梭菌毒素的神经毒性等通路和途径,预测这些可能与PD病理生理有密切相关。
2.在PD的全血分析得到14个差异基因,其主要富集功能在中性粒细胞脱粒和白细胞迁移。
3.TUBB2A、LRRN3作为PD脑黑质和全血共同的差异基因,并且TUBB2A在PD患者的全血表达水平显著降低得到实验验证并获得较好的分类效能,其与Hoehn-Yahr量表或疾病持续时间不具有相关性,这提示TUBB2A是独立的疾病指标,可能作为潜在的生物标志物对帕金森病的诊断有一定的作用。