基于Mantel检验构建基因集差异分析方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:casterisme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,肺腺癌和肝细胞癌主要是借助影像手段进行早期诊断。由于影像设备的分辨率的客观限制以及影像诊断的结果高度依赖于诊断医师的经验水平等主观因素,肺腺癌和肝细胞癌的早期诊断效果并不理想。使用具有高特异性、准确度和灵敏度的分子标记物来辅助影像进行早期诊断,将是有效提高早期癌症诊断水平的一个充满潜力的发展方向。目前使用于肺腺癌和肝细胞癌诊断的传统分子标记物的特异性不尽如人意。提高肺腺癌和肝细胞癌的早期诊断水平迫切需要发现新的更高特异性的分子标记物。
  本文基于Mantel检验构建了一种基因集差异分析方法,将之命名为GSEMT。GSEMT方法的输入是一个包含多个基因的基因集合及一个基因表达矩阵。接收到输入之后,GSEMT方法保留输入的基因集与基因表达矩阵中共有的基因的基因表达值,生成一个基因集相应表达矩阵。此后,GSEMT方法分别依据皮尔逊相关公式和距离公式,从新生成的基因表达矩阵中构造出两个距离性质的矩阵,即样本的基因表达值相似性矩阵和样本的表现型相似性矩阵。依据Mantel检验可用于检验两个距离性质的矩阵之间的相关性的能力,GSEMT方法得到上述两个矩阵之间的相关性,并通过置换检验赋予该相关性值的统计学显著性。
  GSEMT方法可对多个基因集依次进行统计检验。在统计学显著性意义下,如校正后的P值小于0.05,GSEMT方法按照统计量的值从大到小的顺序,输出基因集的有序列表。随后,GSEMT方法使用特征选择SVM-RFE方法对上述输出的基因集列表中排名靠前的基因集进行特征选择,进而筛选出具有表型分类能力的基因集。通常,选用的数据集分为肿瘤样本和非肿瘤样本。因此,GSEMT方法可筛选出非肿瘤样本和肿瘤样本分类效果好的基因子集。接着,训练SVM分类器,以上一步选出来的分类肿瘤样本和非肿瘤样本效果好的基因子集为输入特征,十折交叉验证,绘制受试者工作曲线ROC。最后,对所筛选得到的基因子集进行功能富集,以期发现肿瘤发病机制。
  本文选用癌症基因图谱TCGA项目中的肺腺癌数据LUADpair和肝细胞癌数据LIHCpair作为GSEMT方法的实验数据集,同时下载NCBI GEO数据库公开的肺腺癌数据集GSE32863和GSE75037以及肝细胞癌数据集GSE124535和GSE14520分别用作肺腺癌和肝细胞癌的独立验证数据集。通路数据集库Biocarta,KEGG和Reactome中包含的基因集用作GSEMT方法输入的基因集合集。本文使用受试者工作曲线下面积即AUC作为评价非肿瘤样本和肿瘤样本分类效果的指标。在所用的实验数据集及独立验证数据集上,GSEMT方法均取得了好于用作对比的基因集差异分析方法FGSEA、GSNCA和sigPathway的分类效果。并且,从选出的基因子集的KEGG通路功能富集结果和基因本体论GO功能富集结果来看,虽然其他方法与本文提出的GSEMT方法得到的基因子集富集的功能条目均与相关疾病呈现一定程度的关联,通过与功能条目相关的已发表文献发现,GSEMT方法所得到基因子集的富集功能条目与相关疾病的关联更加密切。
  本文提出的GSEMT方法是一种有效的基因集差异分析方法。GSEMT方法在一定程度上能够帮助实验学者缩小用于实验的候选分子标记物的子集,降低实验成本。它是临床实验学家可选用的一种新的疾病候选分子标记物发现方法。
  
其他文献
重大疾病的致病机理非常复杂。从遗传角度来看,复杂疾病是由基因-基因、基因-环境交互作用导致的结果,因此寻找致病基因是复杂疾病研究中的核心问题。基于高通量技术获得的多组学数据,能从不同层面反映复杂疾病分子变化图谱,有助于揭示复杂疾病致病机理。因此,开发高效的生物信息学方法,从多组学数据中识别出复杂疾病的致病基因成为非常关键的科学问题。现有研究方法大多基于连锁分析和全基因组关联分析,不能有效确定致病基
冠心病严重威胁我国居民健康,给家庭和社会带来沉重负担。如何在患病前控制冠心病的发生,如何在患病后降低冠心病的危害,已成为亟需认真研究解决的重大课题。心电图检查是冠心病临床诊断最基本和最常用的无创性方法。由于心肌缺血可造成心室复极异常和心室肌跨壁复极离散度升高,反映心室复极变化的心电学标志物受到普遍关注,具有代表性的包括QT间期变异性(QTV)、TpTe间期变异性(TpTeV)、校正QT间期、TpT
学位
血压包括收缩压和舒张压,作为人体的重要生理参数,除了高低水平外,它的动态变化也是心脏和血管功能健康状况评估的重要依据。研究表明,血压的变异性与心血管疾病的发生关系密切,血压的监测和管理,对于临床诊断和个人预防高血压具有重要的意义。现有的袖带式血压计只能间歇的测得瞬时血压值,无法获得动态血压。目前的无袖带连续血压测量方法主要是基于心电图(ECG)、光电容积脉搏波(PPG)和心冲击图(BCG)三种信号
学位
抑郁症是当前世界上患病人数较多的心理疾病之一,近年来发病率呈增长趋势。抑郁症容易使患者情绪持续低落,出现失眠、食欲不振等症状,严重者会逐渐脱离社会,导向自残乃至自杀。不同程度抑郁症对应着不同的治疗方式,因此抑郁症的早期诊断与状态检测具有重要的现实意义。当前抑郁症诊断面临着如下问题:临床上诊断依赖于量表和精神科医生的判断,缺乏客观指标;不同抑郁状态之间生理发展机制尚不明确;在全球范围内医疗资源短缺。
学位
医学影像是研究临床疾病的重要工具,它对于疾病的早筛、治疗以及后续的康复、监测和管理都起着不可替代的作用,但是传统的人工医学影像诊断方法仍存在着诸多问题,如医患两方供需不平衡、医院人员负担重;医学影像诊断主观性强、经验要求高等。随着深度学习在图像领域的快速发展,近些年来许多深度学习方法也逐渐用于医学影像的处理和分析,进而辅助医生进行自动诊断,提高工作的效率。但是考虑到医学识别任务的复杂性和医学影像小
学位
人类拥有高度灵巧的手,可抓握物体完成精细复杂的操作任务。大脑在控制手完成各种抓握动作时,可充分参考由手部反馈的接触感知信息,并与视觉及本体感觉等其他模态的感知信息进行有效融合,在根据任务要求进行运动规划决策的基础上,通过对相关肌肉发送动作命令来完成抓握动作。这种由外周和中枢密切结合形成的感知运动融合机制的核心问题是:中枢神经系统如何整合不同模式的感知信息,如触觉和视觉信息进行运动的规划,以及中枢神
抓握操控物体是手的重要功能。为了实现精确而稳定的抓握,人体需要通过视觉和触觉等多种感觉系统实时接收环境信息,并通过中枢神经系统的整合形成决策,然后向外周神经发送运动命令,通过激发肌肉收缩完成抓握动作。研究在精准抓握的过程中,大脑是如何整合对于此行为至关重要的触觉和视觉的信息并实现对物体抓握操控的闭环控制是神经生理学领域的研究中意义重大。然而,传统的研究方法均只能将触觉和视觉的效应进行叠加,通过对单
大气颗粒物对人们健康危害影响日益严重,并且这种影响会根据来源的不同和粒子大小而产生不同的影响。本研究中,由于美国加州的Imperial Valley长期存在空气颗粒物的污染问题,故以Imperial Valley作为典型污染地区来采集环境颗粒物,与Parlier和Sacramento的大气颗粒物做比较,来研究不同粒径尺寸PM的化学成分和毒性分析,并进行急性暴露效应研究。本研究通过一个PM采样和测量
肝细胞癌(Hepatocellular Carcinoma,HCC)的高发病率和高致死率使其受到广泛关注,我国更是肝癌负担最重的国家。随着肝癌病例和死亡人数的逐年增加,寻找有效、可靠的肝癌生物标志物是实现肝癌早期诊断的重要手段。癌症基因组图谱(The Cancer Genome Atlas,TCGA)生成的高通量组学数据和日渐成熟的单细胞测序数据为发现肝癌生物标记物提供了宝贵的数据资源。  尽管已
学位
随着我国人口老龄化的日益加剧,丧失言语和行动能力的失能老人在总人口中的比重越来越高。通常这些老人还患有尿失禁、糖尿病、痛风等慢性疾病,需要定期尿液检查来判断身体状况。尿液中相关疾病标志物浓度水平是医生进行疾病诊断和疗效判断的重要依据。在医院里,患者需要自主取样,并由检验人员依靠尿液分析仪对尿液进行检测分析,这种检测方式对卧床患有尿失禁的失能老人是十分困难的,该类人群通常需要穿戴纸尿裤来解决失禁问题