基于样本子集差异基因表达检测的统计方法研究

被引量 : 0次 | 上传用户:xiazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞内的差异基因表达会引起细胞的异常变化,并引发疾病等一系列后果。采用微阵列基因芯片技术可以量化基因表达水平,通过统计学方法可以识别可能存在的差异表达基因,对揭示癌症等疾病的发病和发展机制、开发抗癌药物等方面可以发挥重要作用。本文针对癌症组样本子集相对于正常组样本过表达的情况,对差异基因表达检测的统计方法进行了研究,主要工作体现在如下几个方面:1.综述了差异基因表达检测的统计研究进展,总结了Tomlins等人提出的对癌症样本子集差异基因表达检测的统计方法,通过模拟实验和真实数据实验,比较分析了COPA方法、OS方法、ORT方法、PPST方法、F方法、OF方法、ORF方法等六种基于分位数的差异基因表达检测方法。实验结果表明,当具有差异表达基因的癌症组样本子集数目k比较小时,这些基于分位数的方法的特异性和敏感性都不够理想。这促使我们把寻找更加适合癌症组样本子集差异基因检测的方法作为进一步的研究方向。2.提出了基于变点的差异基因表达检测方法。将非参数统计的变点思想应用于差异基因表达检测时,可以将正常组和癌症组的单基因表达谱视为一组数列。对于非差异表达基因,正常组和癌症组的基因表达值之间不存在明显的差异,数列的分布不存在突然变化,数列中不存在变点;对于差异表达基因,正常组和癌症组的基因表达值分布之间存在明显的差异,使得数列从某个样本点开始,其之前和之后的分布之间存在突然的变化,即数列存在变点。据此,我们提出了基于分布变点的非参数统计方法,即NPCPS(Non-Parametric Change Point Statistics)方法以寻找差异基因表达谱分布的变点,从而达到检测差异表达基因的目的。该方法充分利用了已知正常样本的表达信息,从而对未知的癌症样本进行评估,对检测样本中可能存在的分布变点,使用T统计假设检验,进行差异表达基因检测。该方法不仅能够检测差异基因,而且还可以对存在差异的样本数进行估计。模拟实验研究和真实数据实验都验证了这一方法的有效性。通过模拟实验和真实数据实验,验证了基于变点的检测方法全面优于基于分位数的检测方法。3.为增进对小样本癌症样本子集存在的差异基因表达检测的灵敏度,在NPCPS的基础上,提出了新的基于加权变点统计量的WCPS(Weighted Change PointStatistics)方法。WCPS方法在NPCPS统计量上增加了一个加权因子,其函数图像呈前端平滑缓慢上升、后端以指数级上升的趋势,以克服NPCPS方法对右边界过低的敏感性。实验结果显示,WCPS方法的错误率远远小于NPCPS方法,当包含差异表达基因的样本数很小时,能够更准确的判断差异基因是否存在。并且,WCPS方法对变点位置的估计也更加接近真实的变点位置。4.将基于分位数和变点的检测方法应用于两个真实数据集,即乳腺癌微阵列数据和结肠癌微阵列数据。乳腺癌是当今威胁女性生命健康的主要恶性疾病之一,中国的乳腺癌患者已达百万计。5%~10%的乳腺癌是家族性的,乳腺癌高危家族中易患基因突变,存在可能的遗传性。结肠癌是发病率较高的恶性肿瘤之一,其发病原因与饮食结构有很大关系。在饮食结构相似的欧洲、北美及澳大利亚等地,其发病率居内脏肿瘤发病率第二位,并且患者多为40至50岁。在饮食结构与欧美不同的亚洲、非洲、南美洲等地,结肠癌的发病率则比较低。然而,除了饮食结构与环境的影响因素之外,结肠癌的发病也存在家族性。据一般资料统计有结肠阳性恶变家族史者,其发病率是一般人群的四倍,这说明结肠癌的发病可能具有遗传因素。鉴于乳腺癌和结肠癌的发病受到遗传学方面的因素影响,从差异基因表达检测的角度研究这两种癌症样本的微阵列数据,具有临床和研究意义。使用WCPS、NPCPS、LRS、COPA、OS、ORT、PPST、T统计和MOST方法,对这两组微阵列数据进行了差异表达基因检测,分析了真实数据集的特性,并使用WCPS方法对结肠癌微阵列数据的癌症样本进行了初步的聚类分析。实验结果表明,新提出的NPCPS方法和WCPS方法优于作为对比的分位数方法,而WCPS方法优于NPCPS方法,能够检测出更多差异表达基因。使用WCPS进行的聚类分析表明,结肠癌样本中的大部分基因彼此之间不具备明显的相关性,少数基因之间存在很高的相关性,而这些基因控制表达的蛋白很可能在生物学上具有相互作用。综上所述,本文在总结了基于分位数的差异基因表达检测方法基础上,针对传统方法对只有比较小的癌症样本子集存在差异表达基因的检测结果不理想的问题,提出了两种新的基于变点检测的方法。通过模拟实验和真实数据检测,验证了新提出的方法可以有效地对癌症样本子集中的差异表达基因进行检测,并且WCPS方法对于癌症样本子集规模较小时的情况其优势更加明显;在使用WCPS方法进行差异表达基因检测的基础上,可以对癌症样本进行进一步的聚类分析。因此,本文新提出的基于变点的差异基因表达检测方法在统计学和生物学方面具有理论和实际意义,可以在癌症基因发现与研究、癌症分型、癌症患者个体化治疗、癌症药物研发等方面发挥重要作用。
其他文献
十年多来,我们始终以"第一时间发现问题、第一时间处置问题、第一时间解决问题"目标,充分发挥功能作用,共立案交办城市管理问题1126.80万件,解决1126万件,问题及时解决率从最初
在全球化这一客观的历史进程中,国际移民呈现的新特征对各个国家和地区产生了或积极、或消极的影响,移民成为一把"双刃剑"。同时,国际移民问题不再仅属于一国国内问题,已成为
债权是存在于特定当事人之间可请求为一定行为或不为一定行为的请求权,传统理论认为债权是一种相对权,债权人只能请求债务人履行债务,当债务人不履行债务时,债权人只能向债务
本文主要论述口腔癌的致病因素与生活方式有关;与环境因素有关;与生物因素有关。根据不同情况进行预防和控制口腔癌的发生。改变不良生活方式,定期检查,早发现早治疗,增加生
目的观察大承气汤在有机磷中毒中的疗效。方法 87例口服有机磷农药患者随机分成两组,对照组应用20%甘露醇250mL导泻,每日1次,共3d,治疗组应用大承气汤200mL导泻,每日1次,共3d
<正>人民币是我国的法定货币。发行人民币、管理人民币流通是国家法律赋予中国人民银行的一项基本职责。随着人民银行金融服务职能的强化,基层央行通过抓调拨、保供应、强化
由广东省第三产业对全省GDP增长的贡献及第三产业各主要行业对GDP增长贡献大小可以看出,随着工业化的发展,第三产业将成为国民经济的主要推动力。本文认为,第三产业对国民经
清远职业技术学院经3年研究与实践,明确界定了专业群概念,提出专业群设置必须三个坚持三个依据,以专业群为主线开展教学建设,以就业为导向设置专业和调整专业结构,按职业技术
&#39;访惠聚&#39;活动自开展以来,在完善基层组织建设、转变基层工作作风、改善群众生产生活条件等方面都取得了积极成效。以&#39;访惠聚&#39;活动为平台,走访入户为精准识别
目的对慢性牙周炎患者联用康复新液与米若环素软膏治疗的临床效果及PLI、SBI改善情况进行研究。方法将2017年4月~2018年4月我院口腔科诊治的68例慢性牙周炎患者纳入研究中,基