基于芯片数据进行生物学功能性聚类分析以建立早期非小细胞肺癌预后模型

被引量 : 0次 | 上传用户:jianghladros
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景与目的非小细胞肺癌(non-small-cell lung cancer, NSCLC)同一TNM分期患者的预后存在巨大差异,即便是接受根治术后的早期(Ⅰ、Ⅱ期)患者,其生存率亦明显低于预期,说明基于解剖学特征的现有TNM分期系统尚不足以充分反映预后,应运而生出一系列着眼于肿瘤组织本身生物学差异的研究,以期找到对不良预后有提示作用的基因标志。肿瘤预后基因标志研究一直以来都是本领域的研究热点,已经有若干相关报道。但IASLC (International Association for the Study of Lung Cancer,国际肺癌联盟)分期委员会并未将此类研究结果用于最新的第7版分期修订,主要是考虑到该类预后预测方法尚不够成熟。其结果多难以通过独立验证集的检验,至少是验证集的敏感度和特异度相较训练集大打折扣。本研究旨在探索预后不同的早期NSCLC肿瘤组织本身生物学特性的差异。首先,按照机器学习法的常规流程建模。此外,为了规避机器学习法“过度拟合”等局限性,本研究尝试跳出海量数据的窠臼,重点着眼于数据背后的规律,全面解析早期NSCLC预后相关的生物学功能类别。以建立在大量数据基础上的生物学功能性聚类为切入点,在多基因有机组合的基础上建立功能预后模型。实验方法第一部分机器学习法建立早期非小细胞肺癌预后模型经广东省人民医院伦理委员会批准并与患者签署知情同意书后,收集2003年4月至2006年6月间接受手术治疗的非小细胞肺癌患者肿瘤组织标本120例和部分肿瘤的配对正常组织53例。常规随访并完整记录随访资料。根据病理评估结果纯化肿瘤组织,最终使肿瘤细胞含量占全部细胞成分的80%以上。常规提取肿瘤组织RNA,利用Affymetrix U133 Plus2.0芯片进行全基因表达谱分析。本研究着眼于早期NSCLC患者的预后模型研究,共入组86例早期(Ⅰ/Ⅱ期)患者,其中术后总生存期不足2.5年者归为高危组,术后无病生存期超过5年者归为低危组,共计50例纳入建模数据集。同期采集127例肿瘤组织标本(与前述120例样本有105例重合),经过同样的病理评估过程后,常规提取肿瘤组织DNA,参照Agilent Oligonucleotide Array-Based CGH for Genomic DNA Analysis操作规程完成数据采集并检验数据质量。分析早期NSCLC的拷贝数变异情况,明确存在高频(>10%)拷贝数变异事件的基因。常规采用机器学习法构建预后模型,即按照如下三个条件筛选risk score模型的候选基因,后以forward selection法建模:(?)配对肿瘤组织与正常组织存在明显差异表达的基因。(?)10%以上的肿瘤样本出现CNA事件的基因。(?) Univariate cox regression生存分析所得P值<0.05的基因。分别在建模数据库(training cohort)和独立验证数据库(validation cohort)验证该模型的预后评估功能。第二部分基于生物学功能性聚类分析以建立早期非小细胞肺癌预后模型表达谱芯片和比较基因组杂交芯片的材料和数据处理方法同第一部分。对于CGH芯片的结果分析,本部分重点关注存在于3%以上样本的染色体片段的CNA事件。并通过将染色体片段与其中focal amplification/focal deletion基因相关联的方式,研究在NSCLC发生发展中起重要作用的生物学功能类别。表达谱芯片部分,本研究以生物学功能性聚类分析为着眼点,以本中心数据集为基础,结合分析四个辅助数据集,明确主要的早期NSCLC预后相关功能类别及代表性基因。人工构建功能预后模型以充分体现各功能类别与早期NSCLC预后的关系,并经独立验证集加以验证。更进一步分析优化预后模型判断功效的方法。结果第一部分机器学习法建立早期非小细胞肺癌预后模型1.机器学习法预后模型的建立根据三个条件共得到22个模型候选基因:(?)配对肿瘤组织与正常组织存在明显差异表达的基因:2383个(?)10%以上的肿瘤样本出现CNA事件的基因:953个(?) Univariate cox regression生存分析所得P值<0.05的基因:1381个Forward selection得到4基因RS模型:RS=(CLDN11×0.777)+(SATB1×1.379)+(ANLN×1.334)+(NUF2×-0.651)2.机器学习法所得模型对训练集的预后评估功能(1)全部50例样本:Log rank检验结果P=0.000,其特异度为24/28=85.7%;敏感度为18/22=81.8%;准确率为(24+18)/50=84.0%。(2)同一TNM分期(38例Ⅰ期)样本:P=0.000,其特异度为22/25=88.0%;敏感度为11/13=84.6%;准确率为(22+11)/38=86.8%。(3)18例Ⅰ期AC样本:P=0.001,其特异度为13/14=92.9%;敏感度为3/4=75.0%;准确率为(13+3)/18=88.9%。3.机器学习法所得模型对韩国Lee等发布的独立数据集的预后评估功能(1)韩国Lee等发布的研究数据(全部70例样本):P=0.013,其特异度为23/35=65.7%;敏感度为23/35=65.7%;准确率为(23+23)/70=65.7%。(2)韩国Lee等发布的研究数据(31例AC样本):P=0.072,其特异度为11/18=61.1%;敏感度为10/13=76.9%;准确率为(11+10)/31=67.7%。(3)韩国Lee等发布的研究数据(39例SCC样本):P=0.063,其特异度为12/21=57.1%;敏感度为13/18=72.2%;准确率为(12+13)/39=64.1%。4.对于Lee等、Hou等、Bild等提供的数据,选择机器学习法所得4基因进行Multi cox regression以重建模型,并分析其预后评估功能:(1)韩国Lee等发布的研究数据(全部70例样本):得到方程如下:RS=(CLDN11×0.079)+(SATB 1×0.065)+(ANLN×0.681)+(NUF2×-0.353)P=0.004,其特异度为23/35=65.7%;敏感度为23/35=65.7%;准确率为(23+23)/70=65.7%。(2)Bild等发布的研究数据(全部52例样本):得到方程如下:RS=(CLDN11×-0.019)+(SATB1×0.110)+(ANLN×0.275)+(NUF2×-0.074)该四个基因的组合,不足以实现预后评估功能(P=0.892)。(3)Hou等发布的研究数据(全部48例样本):得到方程如下:RS=(CLDN11×-0.029)+(SATB1×-0.014)+(ANLN×-0.070)+(NUF2×0.264)该四个基因的组合,不足以实现预后评估功能(P=0.713)。5.分析机器学习过程选择基因的局限性在50例样本组成的全集的基础上,分别去除2例样本,得到两个组成不同的实验集(分别由48例样本组成),记为实验集1和实验集2。进行Univariate cox regression生存分析可见:(1)实验集1得到P<0.05的基因共1358个。(2)实验集2得到P<0.05的基因共1359个(3)实验集1与实验集2结果的交集基因共1130个(4)实验集1与50例全集结果的交集基因共1186个。(5)实验集2与50例全集结果的交集基因共1240个(6)三数据集的交集基因共1113个,与50例样本全集所得1381基因的差异共268个基因。第二部分基于生物学功能性聚类分析以建立早期非小细胞肺癌预后模型1.NSCLC肿瘤组织样本在全基因组水平存在明显的DNA拷贝数变异分析存在高频CNA的基因,可见与NSCLC发生发展相关的主要生物学功能类别有:细胞增殖/分化相关、细胞周期相关、细胞凋亡相关、细胞黏附相关、免疫反应相关基因等。2.从生物学功能的角度分析对早期NSCLC具有良好预后评估功能的生物学功能类别和代表性基因Cell cycle相关:ANLN、BUB1B、CDCC99基因;Cell proliferation相关:DUSP4、STIL、MKI67基因;Cell adhesion相关:HMMR和CD9基因;凋亡相关:KIAA0101和BIRC5基因;Immune response相关:CD1A和C5基因;凝血相关:F12和PGDS基因;物质代谢相关:LPGAT1和PPARGC1A基因。其中cell cycle和cell proliferation相关基因是最重要的预后关联基因,但是他们并不足以代替其他功能类别的作用。3.以生物学功能为基础构建模型(代入16基因),分析其预后评估效果(1)本研究数据(全部50例样本):RS方程如下RS=(MK167*-1.227)+(ANLN*1.296)+(BUB1B*0.700)+(CCDC99*2.048)+(DUSP4 *-0.853)+(STIL*-2.255)+(HMMR/-.483)+(CD9*-2.083)+(KIAA0101*2.907)+(BIR C5*-1.371)+(CD]A*-0.108)+(C5*-1.333)+(LPGATl*1.853)+(PPARGC1A*1.765)+( F12*-0.393)+(PGDS*0.246)Log rank检验结果P=0.000,其特异度为25/28=89.3%;敏感度为19/22=86.4%;准确率为(25+19)/50=88.0%。(2)本研究数据(38例Ⅰ期样本):P=0.000,其特异度为22/25=88.0%;敏感度为12/13=92.3%;准确率为(22+12)/38=89.5%。(3)本研究数据(18例Ⅰ期AC样本):P=0.000,其特异度为13/14=92.9%;敏感度为4/4=100.0%;准确率为(13+4)/18=94.4%。(4)Lee等报道的数据(70例全集):RS方程如下RS=(MK167*-0.024)+(ANLN*0.414)+(BUB1B*0.986)+(CCDC99*0.765)+(DUSP4 *-0.001)+(STIL*0.762)+(HMMR*-.429)+(CD9*-0.261)+(KIAA0101*-0.401)+(BIR C5*-0.490)+(CD1A*0.291)+(C5*-0.316)+(LPGAT1*-0.142)+(PPARGC1A*0.796)+( F12*-0.009)+(PGDS*0.648)Log rank检验结果P=0.000,其特异度为26/35=74.3%;敏感度为26/35=74.3%;准确率为(26+26)/70=74.3%。4.分析预后模型的敏感度、特异度的差异结果发现,将样本按照预后模型所得危险系数(risk score,RS)的降序排列,判断失误样本主要集中在中间的灰色地带,灰色地带的宽度和集中程度与模型的预后评估功能直接相关。为后续提高模型的敏感度、特异度提供了启示。结论1.机器学习法构建的模型可以为训练集数据提供理想的预后判断(敏感度和特异度在80%以上,且与TNM相独立),但在独立验证集(同为东亚人种)的预后判断功效不足。2.机器学习模型的4个组成基因有两个为cell cycle类基因,cell cycle和cellproliferation类基因是与早期NSCLC预后最相关的两类基因。但单凭cell cycle和cell proliferation基因尚不足以判断患者预后。此外还有5大类基因与早期NSCLC的预后相关,分别为:cell adhesion、cell apoptosis、immune response、物质代谢、凝血功能相关基因。3.选择7类预后相关生物学功能的16个代表性基因组成功能预后模型,其对独立验证集的预后分组效果优于机器学习模型,即便是在机器学习模型的训练集,结果也不逊色。说明多项相关生物学功能的协同作用,可以提高模型的预后评估效果。4.分析预后模型在不同数据集作出错误判断的原因,可见,根据基因来评估NSCLC患者的预后时,判断失误的样本主要集中在危险系数的中间地带——灰色地带。5根据相关的生物学功能可以将基因分为两大类,预后良好的关联基因——Geneprognosis-positive和预后不良的关联基因——Geneprognosis-negative,最终的预后判断取决于高、低危两大类功能状态的角逐。若二者难分优劣势,则无法通过基因模型来判断预后,即预后判断的灰色地带。这也为后续提高功能模型的预后评估效果提供了努力的方向:(1)尽可能缩小灰色地带的范围。(2)分别确定高、低危组与现有灰色地带的界值。
其他文献
目的探讨新辅助环磷酰胺联合5-氟尿嘧啶、氨甲喋呤(CMF)方案与紫杉醇+表阿霉素(TA)方案治疗乳腺癌的临床疗效及对雌激素受体(ER)表达的影响。方法选择2013年1月至2014年1月间
指出混住型老年公寓是当前较为理想的老年人口居住模式,详细介绍了混住型老年公寓户外公共交往空间和公寓内部公共交往空间的合理设计,以提高老年住户的心理健康水平。
对我国高校交往空间基本状况进行了阐述,从原则和内容两个方面提出交往空间适应性设计需要注意的关键环节,并从整体规划、步行交通系统、空间系统设计出发,分析了高校交往空
从经络循行、脏腑生理病理、五轮、八廓、视觉变化、内眼组织结构,六经营卫循行交会等方面提出10种常用眼科六经辨证方法。旨在继承和发扬陈达夫教授眼科六经辨证的学术理论
十八大精神"三进"是高校思想政治工作的一项重要使命,提高"两课"教师的理论认识,改革探索新的教学方法,以大学生、学员关注的问题为切入点,重点解决"进学生头脑"这一核心问题
从语法角度来看,对英语动词名词化的研究一般考虑句法对各种形式的名词化的制约,为了更深入地探究其深层结构,本文主要从认知结构角度入手,对英语动词名词化问题进行研究,以
目的 研究消痰散结方对肿瘤细胞诱导的血管内皮细胞小管形成的影响 ;方法 用鼠尾中的弹性纤维蛋白制备凝胶用于血管形成实验 ,将内皮细胞团接种于凝胶中 ,将胃癌细胞接种于
目的 :研究线粒体肌酸激酶(CK -mit)在肺癌中的表达及意义。方法 :应用抗人心肌线粒体肌酸激酶单克隆抗体和免疫组化LSAB法对50例肺癌组织进行CK -mit检测。结果 :肺癌阳性率
近几年,哈尔滨市道外区加大了预算管理改革步伐,推行了部门预算、零基预算等多项改革措施,有效的改变了资金使用状况。本文以道外区财政预算编制改进研究为内容,在论述了部门
改革开放以来,随着我国社会转型和市场经济体制改革的不断深入,房地产利益集团在我国经济、政治生活中所发挥的作用越来越大,最突出的表现之一就是影响房地产政策的出台及实