论文部分内容阅读
多发性硬化症(multiple sclerosis,MS)是常发生在发生于年轻人中枢神经系统脱髓鞘疾病,该病属于自身免疫性疾病的一种,复发率和致残率均较高。成年女性患病多于男性。MS是遗传因素与环境因素共同作用发生的,由病理性免疫激活引发的炎症和神经退行性变是引起该疾病的主要原因。目前虽然已有一些诊断方法,如核磁共振成像技术,及较为成熟的治疗方法,包括急性复发管理,疾病修复治疗和对症状治疗等,但是关于MS的大部分的病理机制仍然不清楚,因此也没有十分有效的治疗手段。本研究的主要目的是通过生物信息学分析方法挖掘与MS疾病具有较强关联的特征基因,并结合基因的功能和通路分析研究疾病的具体致病机制。此外,特征选择已广泛在生物信息学中得到应用并有重要进展,目前已有一些方法,但是都存在一些缺陷,特别是对于单基因的特征分析时准确性不高。因此,本研究还探索了分析基因的特征选择算法SAM-GSR的可行性,并尝试对该算法进行了优化以获得更理想的疾病特征选择方法。首先,在多发性硬化症的研究中,我们从EBI数据库中下载E-MTAB-69和E-GEOD-17048与MS疾病相关的基因表达谱数据。将E-MTAB-69数据集作为主分析数据集,而E-GEOD-17048则作为后期重要特征基因的验证数据集。然后对数据进行了预处理,并对基因表达数据进行分析,在主分析数据集E-MTAB-69中筛选显著差异表达基因。对差异表达基因进行双向层次聚类,然后将基因按照logFC值分为上调和下调表达两个集合,并进行GO功能富集分析,随后采用WGCNA算法筛选疾病相关模块及基因,并对疾病相关模块中基因进行共表达网络分析。利用miR2Disease数据库搜索与MS直接关联的miRNA及miRNA的靶标基因,并搜索与靶基因显著相关的药物小分子。接下来以验证数据集E-GEOD-17048对重要基因集合进行优化选择。结果发现在E-MATB-69数据集中共筛选到391个显著下调和383个显著上调表达的基因。双向层次聚类热图显示筛选得到的差异表达基因具有样本特征性。功能富集分析结果表明上调基因集主要富集在细胞形态发生及血管生成等GO条目,及PPAR和Notch信号通路;而下调基因集主要与激酶活性调节、细胞骨架及粘着斑相关。WGCNA算法分析后共得到5个模块与疾病的相关形态超过了0.9,并涉及533个差异表达基因。从共表达网络挖掘到5个功能模块中的基因主要与细胞组织、信号传导、多细胞生物学过程、细胞分化及核质运输相关。此外,共得到了13个与MS相关的miRNA并构建了miRNA调控网络,还利用WebGestalt共搜索得到8个与基因显著相关的药物分子。在对E-MATB-69完成上述分析的基础上,我们使用E-GEOD-17048作为验证数据集对所得到的重要基因集合进行优化选择,并最终获得了6个最优基因组合:CASKIN2,VEZF1,AL3ST2,DCLRE1C,TGS1,PPP2R3A,此6个基因构建的SVM能够较为准确地识别样本,且在验证数据集中具有同样优越的判定效果。在研究的第二部分,同样使用了从ArrayExpress基因表达数据库下载的E-MTAB-69芯片数据,另外,还使用了从IMPROVER MS sub-challenge获得第二个数据集(sbv数据集)。我们根据c2和c5两种类别对数据进行分析,首先对样本进行标准化,并获得基因差异表达倍数。随后使用SAM-GSR算法进行特征选择,并使用测试集来评估该最终模型的预测性能。同时,还对SAM-GSR算法进行优化改良并进行特征选择。随后,使用了四个指标,即信念混淆度量(BCM),精确回归曲线下面积(AUPR),广义贝尔评分(GBS)和误差率,来评估两种算法作为分类器的性能。最后使用R语言对结果进行统计分析。结果显示除了AURP指标外,其他所有性能统计均显示改良后的SAM-GSR算法的性能优于SAM-GSR算法,对数据集进行替换后,结果同样显示了改良后的SAM-GSR算法的优越性。另外,通过与文献中的一些MS诊断特征进行比较发现,改良后的SAM-GSR分析的结果优于大部分的其他结果。另外采用腺癌数据集对两种SAM-GSR算法进行验证显示改良的SAM-GSR算法优于其他四种算法结论:1.DCLRE1C,PPP2R3A及VEZF1可能通过调节炎症免疫反应、介导蛋白质的磷酸化及血管生成过程参与MS的发生发展。这三种新发现的MS相关基因可能作为药物标靶分子,并在以后的疾病治疗及监控中起到重要的作用。2.我们的研究结果表明,SAM-GSR算法可以进行疾病特征选择,而改良的SAM-GSR算法胜过SAM-GSR算法。考虑到通路信息不完整,因此能够构建生物意义的基因网络的统计学方法非常有意义,同时也需要在未来的工作中不断重新评估两种SAM-GSR算法,从而更好地进行特征选择。