论文部分内容阅读
细胞内的差异基因表达会引起细胞的异常变化,并引发疾病等一系列后果。采用微阵列基因芯片技术可以量化基因表达水平,通过统计学方法可以识别可能存在的差异表达基因,对揭示癌症等疾病的发病和发展机制、开发抗癌药物等方面可以发挥重要作用。本文针对癌症组样本子集相对于正常组样本过表达的情况,对差异基因表达检测的统计方法进行了研究,主要工作体现在如下几个方面:1.综述了差异基因表达检测的统计研究进展,总结了Tomlins等人提出的对癌症样本子集差异基因表达检测的统计方法,通过模拟实验和真实数据实验,比较分析了COPA方法、OS方法、ORT方法、PPST方法、F方法、OF方法、ORF方法等六种基于分位数的差异基因表达检测方法。实验结果表明,当具有差异表达基因的癌症组样本子集数目k比较小时,这些基于分位数的方法的特异性和敏感性都不够理想。这促使我们把寻找更加适合癌症组样本子集差异基因检测的方法作为进一步的研究方向。2.提出了基于变点的差异基因表达检测方法。将非参数统计的变点思想应用于差异基因表达检测时,可以将正常组和癌症组的单基因表达谱视为一组数列。对于非差异表达基因,正常组和癌症组的基因表达值之间不存在明显的差异,数列的分布不存在突然变化,数列中不存在变点;对于差异表达基因,正常组和癌症组的基因表达值分布之间存在明显的差异,使得数列从某个样本点开始,其之前和之后的分布之间存在突然的变化,即数列存在变点。据此,我们提出了基于分布变点的非参数统计方法,即NPCPS(Non-Parametric Change Point Statistics)方法以寻找差异基因表达谱分布的变点,从而达到检测差异表达基因的目的。该方法充分利用了已知正常样本的表达信息,从而对未知的癌症样本进行评估,对检测样本中可能存在的分布变点,使用T统计假设检验,进行差异表达基因检测。该方法不仅能够检测差异基因,而且还可以对存在差异的样本数进行估计。模拟实验研究和真实数据实验都验证了这一方法的有效性。通过模拟实验和真实数据实验,验证了基于变点的检测方法全面优于基于分位数的检测方法。3.为增进对小样本癌症样本子集存在的差异基因表达检测的灵敏度,在NPCPS的基础上,提出了新的基于加权变点统计量的WCPS(Weighted Change PointStatistics)方法。WCPS方法在NPCPS统计量上增加了一个加权因子,其函数图像呈前端平滑缓慢上升、后端以指数级上升的趋势,以克服NPCPS方法对右边界过低的敏感性。实验结果显示,WCPS方法的错误率远远小于NPCPS方法,当包含差异表达基因的样本数很小时,能够更准确的判断差异基因是否存在。并且,WCPS方法对变点位置的估计也更加接近真实的变点位置。4.将基于分位数和变点的检测方法应用于两个真实数据集,即乳腺癌微阵列数据和结肠癌微阵列数据。乳腺癌是当今威胁女性生命健康的主要恶性疾病之一,中国的乳腺癌患者已达百万计。5%~10%的乳腺癌是家族性的,乳腺癌高危家族中易患基因突变,存在可能的遗传性。结肠癌是发病率较高的恶性肿瘤之一,其发病原因与饮食结构有很大关系。在饮食结构相似的欧洲、北美及澳大利亚等地,其发病率居内脏肿瘤发病率第二位,并且患者多为40至50岁。在饮食结构与欧美不同的亚洲、非洲、南美洲等地,结肠癌的发病率则比较低。然而,除了饮食结构与环境的影响因素之外,结肠癌的发病也存在家族性。据一般资料统计有结肠阳性恶变家族史者,其发病率是一般人群的四倍,这说明结肠癌的发病可能具有遗传因素。鉴于乳腺癌和结肠癌的发病受到遗传学方面的因素影响,从差异基因表达检测的角度研究这两种癌症样本的微阵列数据,具有临床和研究意义。使用WCPS、NPCPS、LRS、COPA、OS、ORT、PPST、T统计和MOST方法,对这两组微阵列数据进行了差异表达基因检测,分析了真实数据集的特性,并使用WCPS方法对结肠癌微阵列数据的癌症样本进行了初步的聚类分析。实验结果表明,新提出的NPCPS方法和WCPS方法优于作为对比的分位数方法,而WCPS方法优于NPCPS方法,能够检测出更多差异表达基因。使用WCPS进行的聚类分析表明,结肠癌样本中的大部分基因彼此之间不具备明显的相关性,少数基因之间存在很高的相关性,而这些基因控制表达的蛋白很可能在生物学上具有相互作用。综上所述,本文在总结了基于分位数的差异基因表达检测方法基础上,针对传统方法对只有比较小的癌症样本子集存在差异表达基因的检测结果不理想的问题,提出了两种新的基于变点检测的方法。通过模拟实验和真实数据检测,验证了新提出的方法可以有效地对癌症样本子集中的差异表达基因进行检测,并且WCPS方法对于癌症样本子集规模较小时的情况其优势更加明显;在使用WCPS方法进行差异表达基因检测的基础上,可以对癌症样本进行进一步的聚类分析。因此,本文新提出的基于变点的差异基因表达检测方法在统计学和生物学方面具有理论和实际意义,可以在癌症基因发现与研究、癌症分型、癌症患者个体化治疗、癌症药物研发等方面发挥重要作用。