论文部分内容阅读
微阵列技术彻底改变了癌症基因的检测方式,从单个基因的检测跃升为成千上万个基因同时检测,这大大提高了检测的效率,同时降低了检测成本,目前它已经是癌症研究中最常用和最有力的工具之一。但是,新的问题随之而来,在微阵列的数据环境中,变量的个数(基因的个数,p)要远远超过样本含量(样本个数,n),出现了所谓的“大p小n(large p, small n)”问题,而且各个变量间不独立,关系复杂。传统的统计方法如多元线性回归,Logistic回归以及COX模型等无法进行有效预测。在与微阵列数据有相似数据结构的计量化学领域,偏最小二乘法(Partial Least Square method, PLS)被证明是一种十分有效的回归预测模型。PLS以它的“软建模”而著称,所谓的“软建模”是指在建模过程中没有普通最小二乘所需的前提约束,如变量间相互独立无多重共线性等。随着生物信息学的发展,在本世纪初PLS引入了微阵列基因表达数据的分析,它的特点是高效的计算和统计效率、结果的可视化,同时兼有很大的灵活性和多功能性。【目的】本研究将PLS引入癌症微阵列基因表达数据的分析中,探讨PLS在癌症基因表达数据分析中的各种应用,具体包括利用基于PLS的变量重要性指标(Variable Importance in Projection, VIP)筛选差异表达基因,并且对筛选得到的部分差异表达基因进行生物学解释;由于细胞遗传学异常对肝癌的形成和发展以及早起检测有着重要的作用,本研究利用筛选得到的差异表达基因结合Fisher精确检验预测肝癌的细胞遗传学异常区域;精确的多分类方法对于多分类肿瘤的亚型有着重要作用,本研究对两种基于PLS的多分类方法的准确性和稳定性进行了全面地比较。【方法】①利用基于PLS的VIP值筛选差异表达基因;②利用①得到肝癌异常表达基因,根据基因在染色体上的定位,计算每条染色体上的上调、下调基因以及正常表达基因,结合Fisher精确检验识别有统计学意义的细胞遗传学异常区域;③利用NCI60等4个肿瘤基因表达数据库,通过4种不同方法选取差异表达基因,并运用不完全交叉验证技术评价4种差异表达基因选取方法对分类结果的影响,在此基础上,选择对分类最有利的一种差异表达基因选取方法,运用完全交叉验证技术对两种基于偏最小二乘的多分类方法的准确性和稳定性进行比较,寻找差异表达基因选取方法、分类方法、成分数选择的最佳组合。【结果】①通过VIP值有效地提取差异表达基因;②利用VIP值筛选得到的差异表达基因结合Fisher精确检验能够准确预测肝癌的细胞遗传学异常区域,与传统的实验方法相比,在降低假阳性的情况下,识别效率有了很大的提高;与CGMA相比较,灵敏度有了较大提高,和LSS-CAP相比,本研究所用方法简便快速,识别了5q(Gain),17q(Loss)和21q(Loss)三个LSS-CAP未识别区域,并且避免了两个疑似假阳性区域15q(Gain)和22q(Loss)的识别;③两种基于PLS的多分类方法在经过差异基因选取后都可以达到较好的分类效果,经不完全交叉验证,VIP值法得到的差异表达基因对分类最有利,其值前200位基因和4个成分水平上两种分类方法都能得到较低的误分率,这个结果从侧面反应了VIP值作为基因筛选指标的合理性;通过不同k值下的完全k倍交叉验证考察两种分类方法,结果PLS-DA在分类准确性和稳定性上都略优于PLS-LDA。