多发性硬化症特征性基因的筛选及SAM-GSR算法在特征分析中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:boyanfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多发性硬化症(multiple sclerosis,MS)是常发生在发生于年轻人中枢神经系统脱髓鞘疾病,该病属于自身免疫性疾病的一种,复发率和致残率均较高。成年女性患病多于男性。MS是遗传因素与环境因素共同作用发生的,由病理性免疫激活引发的炎症和神经退行性变是引起该疾病的主要原因。目前虽然已有一些诊断方法,如核磁共振成像技术,及较为成熟的治疗方法,包括急性复发管理,疾病修复治疗和对症状治疗等,但是关于MS的大部分的病理机制仍然不清楚,因此也没有十分有效的治疗手段。本研究的主要目的是通过生物信息学分析方法挖掘与MS疾病具有较强关联的特征基因,并结合基因的功能和通路分析研究疾病的具体致病机制。此外,特征选择已广泛在生物信息学中得到应用并有重要进展,目前已有一些方法,但是都存在一些缺陷,特别是对于单基因的特征分析时准确性不高。因此,本研究还探索了分析基因的特征选择算法SAM-GSR的可行性,并尝试对该算法进行了优化以获得更理想的疾病特征选择方法。首先,在多发性硬化症的研究中,我们从EBI数据库中下载E-MTAB-69和E-GEOD-17048与MS疾病相关的基因表达谱数据。将E-MTAB-69数据集作为主分析数据集,而E-GEOD-17048则作为后期重要特征基因的验证数据集。然后对数据进行了预处理,并对基因表达数据进行分析,在主分析数据集E-MTAB-69中筛选显著差异表达基因。对差异表达基因进行双向层次聚类,然后将基因按照logFC值分为上调和下调表达两个集合,并进行GO功能富集分析,随后采用WGCNA算法筛选疾病相关模块及基因,并对疾病相关模块中基因进行共表达网络分析。利用miR2Disease数据库搜索与MS直接关联的miRNA及miRNA的靶标基因,并搜索与靶基因显著相关的药物小分子。接下来以验证数据集E-GEOD-17048对重要基因集合进行优化选择。结果发现在E-MATB-69数据集中共筛选到391个显著下调和383个显著上调表达的基因。双向层次聚类热图显示筛选得到的差异表达基因具有样本特征性。功能富集分析结果表明上调基因集主要富集在细胞形态发生及血管生成等GO条目,及PPAR和Notch信号通路;而下调基因集主要与激酶活性调节、细胞骨架及粘着斑相关。WGCNA算法分析后共得到5个模块与疾病的相关形态超过了0.9,并涉及533个差异表达基因。从共表达网络挖掘到5个功能模块中的基因主要与细胞组织、信号传导、多细胞生物学过程、细胞分化及核质运输相关。此外,共得到了13个与MS相关的miRNA并构建了miRNA调控网络,还利用WebGestalt共搜索得到8个与基因显著相关的药物分子。在对E-MATB-69完成上述分析的基础上,我们使用E-GEOD-17048作为验证数据集对所得到的重要基因集合进行优化选择,并最终获得了6个最优基因组合:CASKIN2,VEZF1,AL3ST2,DCLRE1C,TGS1,PPP2R3A,此6个基因构建的SVM能够较为准确地识别样本,且在验证数据集中具有同样优越的判定效果。在研究的第二部分,同样使用了从ArrayExpress基因表达数据库下载的E-MTAB-69芯片数据,另外,还使用了从IMPROVER MS sub-challenge获得第二个数据集(sbv数据集)。我们根据c2和c5两种类别对数据进行分析,首先对样本进行标准化,并获得基因差异表达倍数。随后使用SAM-GSR算法进行特征选择,并使用测试集来评估该最终模型的预测性能。同时,还对SAM-GSR算法进行优化改良并进行特征选择。随后,使用了四个指标,即信念混淆度量(BCM),精确回归曲线下面积(AUPR),广义贝尔评分(GBS)和误差率,来评估两种算法作为分类器的性能。最后使用R语言对结果进行统计分析。结果显示除了AURP指标外,其他所有性能统计均显示改良后的SAM-GSR算法的性能优于SAM-GSR算法,对数据集进行替换后,结果同样显示了改良后的SAM-GSR算法的优越性。另外,通过与文献中的一些MS诊断特征进行比较发现,改良后的SAM-GSR分析的结果优于大部分的其他结果。另外采用腺癌数据集对两种SAM-GSR算法进行验证显示改良的SAM-GSR算法优于其他四种算法结论:1.DCLRE1C,PPP2R3A及VEZF1可能通过调节炎症免疫反应、介导蛋白质的磷酸化及血管生成过程参与MS的发生发展。这三种新发现的MS相关基因可能作为药物标靶分子,并在以后的疾病治疗及监控中起到重要的作用。2.我们的研究结果表明,SAM-GSR算法可以进行疾病特征选择,而改良的SAM-GSR算法胜过SAM-GSR算法。考虑到通路信息不完整,因此能够构建生物意义的基因网络的统计学方法非常有意义,同时也需要在未来的工作中不断重新评估两种SAM-GSR算法,从而更好地进行特征选择。
其他文献
重点介绍了风力发电的类型,并对各自的优缺点进行了分析。
免疫系统是机体抵御病原体侵袭,维持内环境相对稳定的必要条件。而淋巴细胞是构成机体免疫系统的主要细胞群体,它包括T细胞、B细胞和NK细胞等多种表型和功能各异的细胞。其中
目的探析髋、膝关节置换术患者术后院内发生下肢深静脉血栓(DVT)的高危因素。方法在2016年3月—2018年7月期间于新乡市第一人民医院择取215例髋、膝关节置换术患者作为分析对
非谓语动词作宾补是语法教学中的一个难点。一些教材或辅导材料中对此常有疏误。在语言应用中,应该注重语言的习惯用法,而非仅仅局限于相关动词的本身意思。
当人才被称为人力资本的时候,越来越多的企业意识到,自己所握有人才的价值必须不断重新评估,而薪酬报告以其及时,专业,具有代表性等特点,成为了企业薪酬决策的重要工具。
“人接受信息的通道大致包括视觉、听觉、嗅觉、味觉、触觉。而通过视觉所获信息是其他通道的6倍,即视觉占全部信息的87%。”如果视觉、听觉兼而有之,那么,受众接受信息的兴
2014年举办的第十二届全国美展中。我的作品《渔港春色》有幸入选。这是由文化部、中国文联、中国美协每五年举办一届的全国综合类美术大展。这是我入选的一次重要展览,在我的
蚜虫是十字花科作物的主要害虫之一,蚜虫统称菜蚜,俗名“腻虫”、“油旱”,蚜虫属同翅目蚜科,是昆虫中一个较大的类群。主要包括桃蚜、萝卜蚜和瓜蚜三种。是农林生产的重大害虫,给
在社会转型时期,随着社会多元化的发展,青少年问题已成为当今社会发展中的热点问题,它关系到国家、民族未来的生存与发展.而青少年由于独特的身心特点,使他们处于个体发展历
目的:分析老年慢性阻塞性肺疾病(COPD)患者应用卡泊芬净治疗侵袭性真菌感染的疗效与安全性。方法:回顾性分析我院呼吸内科2013年7月-2015年7月收治的80例老年COPD患者的临床资料,