论文部分内容阅读
由于技术的发展以及成本的降低,基因组测序在孟德尔遗传疾病,复杂疾病,以及癌症基因检测中得到了运用,并产生了海量的测序数据。这些数据对研究疾病的致病机制、疾病的临床诊断、以及对疾病的个性化治疗都有重要意义。超过4000种人类遗传疾病的分子致病机制尚不清楚。研究表明,遗传疾病的发生机制与可变剪接密切相关,剪接位点是可变剪接机制的重要调控元素之一,在剪接位点层面上研究疾病的致病机制对遗传疾病的致病机制研究具有至关重要的作用。为了解决这个问题,本文采用序列模式挖掘模型研究遗传疾病的剪接位点致病突变。癌症是人类健康的最大威胁,识别潜在的原癌基因和抑癌基因不仅能提高我们对肿瘤发生和癌症演进的理解,而且有助于癌症个性化治疗的发展。过去几年的基因组测序研究产生了大量的癌症体细胞突变数据,但是如何解释这些序列信息仍然是一个巨大的挑战,在过去的研究中,人们根据携带突变的基因的功能对突变是否具有驱动性来识别驱动基因,还出现了很多方法对这种识别方法进行补充。虽然已经有一些计算工具可以预测突变的功能影响,但是它们的作用是有限的。因遗传疾病致病突变与癌症体细胞突变的共同突变建立影响蛋白质功能的分子机制,我们假设这些共享相同突变的基因是癌症驱动基因,在本文的研究中,我们利用遗传疾病致病突变与癌症体细胞突变的重叠突变来识别潜在的新型癌症驱动突变。本文的主要工作如下:(1)应用序列模式挖掘模型研究遗传疾病的剪接位点区域致病突变。本文应用的序列模式挖掘模型是频繁模式挖掘算法融合PSSM算法的模型,通过该模型的实验结果表明,该模型在区分遗传疾病致病突变与普通变异时具有良好的分类效果,遗传疾病剪接位点区域的致病变异使剪接位点信号变弱,从而使正常的剪接被破坏,导致疾病的发生。(2)利用遗传疾病致病突变识别癌症原癌基因和抑癌基因。在这项研究中,我们利用孟德尔疾病致病突变与癌症体细胞突变的重叠变异识别潜在的原癌基因和抑癌基因。因为遗传疾病致病突变与癌症体细胞突变共享突变已有影响蛋白质功能的明确分子机制,因此我们假设这些突变更可能是癌症驱动突变。我们的研究表明,癌症体细胞突变与遗传疾病致病突变的重叠突变在癌症中的突变频率较高,并在已知的癌症基因中富集。我们根据不同的重叠突变数目来识别潜在的肿瘤抑制基因,结果表明:离子通道、胶原蛋白、马方综合征相关基因可能是抑癌基因的新分类。然后在每种特异癌症类型中,我们根据高复发率,以及根据与癌基因基因突变互斥的重叠突变识别潜在原癌基因。总之,我们的研究表明可以使用遗传疾病致病突变和癌症体细胞突变的重叠突变从大量癌症基因组测序数据中发现新的癌症基因。