急性髓细胞白血病基因芯片数据的降维分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:jma_sd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国白血病的发病率在各种肿瘤中排第六位,白血病是一种造血干细胞恶性疾病,我国每年每10万人中大约有2.76人患白血病.急性髓细胞白血病(AML)是髓系造血干细胞恶性疾病,我国每年每10万人中有1.62人患急性髓细胞白血病.随着人类基因组计划的逐步实施,越来越多基因序列得以测定,基因序列数据正在以前所未有的速度迅速增长.基因芯片的出现为研究基因序列数据提供了光辉的前景,基因芯片可以应用于疾病的诊断,对疾病进行快速鉴定分类,为早期诊断和治疗创造条件.患急性髓细胞白血病的儿童和成人进行基因芯片分析能显著改善诊断的精确度,有助于更好地治疗这种疾病.基因芯片数据可以看作一个矩阵,对基因芯片数据的研究都建立于该矩阵基础上,大数据量、高维数是基因芯片的显著特征,直接分析基因芯片数据计算量大、耗费时间长,而且成本高,对基因芯片数据进行降维后,相关研究人员可以更高效快速地获取基因芯片包含的信息.本文针对急性髓细胞白血病基因芯片,主要探讨该基因芯片数据的降维方法,从而达到更高效、更准确地提取基因芯片信息的目的.本文创新性地提出Bootstrap和主成分分析相结合的思想,首次将Boot-strap方法(Bootstrap是指用原样本自身的数据抽样得到新的样本及统计量)应用到基因芯片数据主成分降维分析中:当以基因为变量时,假设一组随机变量X=[X1,X2,…,Xn]T,在该组随机变量中作有放回抽样,得到Bootstrap样本组,并求该样本组相关系数的特征值λb(1 ≤ b≤B)和特征向量1 ≤ b≤B),重复上述步骤B(B ≥ 1000)次,将B组λb的平均值作为Bootstrap-主成分的方差贡献率;用B组aijb的平均值修正主成分分析原始变量线性组合的系数,从而提取出Bootstrap基因主成分,优化小样本情况下PCA的结果.本文具体研究内容包含以下六个部分:1、AML基因芯片数据的预处理本文从国家生物技术信息中心(NCBI)的GEO基因数据库中获取急性髓细胞白血病基因芯片数据矩阵,筛选出差异显著性检验P值分别满足P<0.05、P<0.01、P<0.001的三组数据集,以便于结果对比验证.2、AML基因芯片数据的主成分降维分析本文以芯片为变量对上述三组数据集分别进行主成分分析(PCA),选取三个主成分,将第二、三主成分的基因得分排名,分别选取得分绝对值靠前的基因,得到差异显著表达的基因.三组数据集中HOXA9基因出现频率较高,表明HOXA9基因显著表达,在急性髓细胞白血病中HOXA9起着至关重要的作用.以基因为变量作主成分分析时,由于样本数远小于变量数,传统主成分分析结果不佳.3、AML基因芯片数据的Bootstrap-主成分降维分析本文对三组数据集分别运用Bootstrap-主成分分析,对比传统PCA的结果,要使累积方差贡献率大于80%,Bootstrap-主成分分析选择的主成分个数更少.4、基于Bootstrap基因主成分的线性回归将Bootstrap-基因主成分记为自变量Fj,将两类急性髓细胞白血病记为因变量y,建立线性回归方程:y= β0+β1F1+β2F2+…+βnFn,随机抽取部分样本得到回归方程的系数,再用未被抽取的样本数据代入验证,结果发现该线性回归方程可以用于判断样本类别.5、AML基因芯片数据的稀疏主成分降维分析本文利用稀疏主成分分析使尽可能多的因子载荷为0,但与主成分分析相比,随着负载因子为0的变量越多,方差贡献率越小,稀疏主成分相比主成分丢失了更多信息,对于本文的AML基因芯片数据,该降维方法不佳.6、AML基因芯片数据的聚类分析本文对比了层次聚类的几种距离算法的MATLAB运行时间和结果优度,综合来看,本文选取最远距离算法效果较好;运用K-means聚类时,MATLAB运行时间显著缩短.同时,本文分别运用层次聚类和K-means聚类对芯片样本进行分类准确度验证,P<0.05和P<0.01数据集运用K-means聚类分类精准度更高,P<0.001数据集运用层次聚类分类精准度更高,所以当样本量较小时,层次聚类优于K-means聚类;当样本量较大时,K-means聚类在时间和精度方面都优于层次聚类.综上,以芯片为变量进行主成分分析可以筛选关键基因;以基因为变量进行Bootstrap-主成分分析,建立线性回归方程可以判断样本类别,对确定疾病种类有重要意义,但是Bootstrap-主成分分析比主成分分析MATLAB运行时间久;聚类分析通过合并相似基因降低基因维数,也适合对基因芯片数据进行样本分类,当数据量较大时,基因分类和样本分类更适合用K-means聚类;当数据量较小时,利用层次聚类方法进行样本分类精确度更高;
其他文献
实习成绩评定是教育实习的重要环节,它的评价考核应充分体现甄别功能、激励功能、导向功能、诊断功能和实用功能。只有从理论内涵和操作策略两个层面充分发挥教育实习评价考
在双单片机控制的电阻焊控制器中,由于主控单片机的串口被用来和PC机进行通信。介绍一种利用单片机I/O口模拟串行通信的方法,并将其成功地应用在双单片机电阻焊控制器中。详细
目的探讨彩色多普勒超声联合超声造影评价TIPS术后支架通畅性的价值,并分析TIPS术后支架内血流动力学特点。方法回顾性分析32例TIPS术后患者的超声检查资料,观察并评价彩色多
从《人生的枷锁》和《刀锋》中可以看到,毛姆的文学作品揭示人性的乖戾,命运的无常,生死的意义,人生的孤独感、虚无感和荒诞感。贯串着对人生的探索,对真理的追求,闪耀着智慧
佛教文化是一种具有悠久历史的文化现象,是中国传统文化中的重要组成部分,但是当今大学生对佛教文化了解甚少。在当代大学生信仰匮乏、理想迷茫的背景下,对佛教文化中蕴含的
唐王朝建立后,唐王室的鲜卑血统及包容性的文化政策使胡文化广泛渗入社会生活,女性干政成为初盛唐政治生活的普遍现象。中唐以后,随着对安史之乱反思的深入,儒学由衰而兴,儒
以台州市342名幼儿教师为调查对象,采用UWES工作投入量表调查幼儿教师工作投入的现状及其在人口统计学变量上的差异。结果表明:工作投入的三个维度中专注得分最高、奉献次之
骨科手术或创伤后疼痛不仅给患者带来痛苦,更多影响全身各个系统及术后功能锻炼。目前主要的镇痛理念包括:超前镇痛、多模式镇痛、个体化镇痛。均为达到更好的镇痛效果,降低
为了使硅橡胶与金属能够很好的粘接 ,通过向硅橡胶中加入乙烯基三特丁基过氧化硅烷和气相法白炭黑等配成胶粘剂 ,提高了胶粘剂的粘接强度 ,解决了硅橡胶和金属的粘接技术难点