论文部分内容阅读
癌症是一种常见的拥有复杂致病机理的疾病之一。目前学术界和医学界对于癌症的治愈还没有有效的手段提出,但人们对于攻克癌症的热情和迫切从未减退。随着高通量基因组项目的开展以及对泛癌分析技术研究的不断深入,研究者们逐渐认清了体细胞突变对癌症形成的重要影响。氨基酸编码区的功能性体细胞突变在癌症致病过程中往往具有选择性表达的优势,这种选择性表达优势极有可能会引起细胞或者组织器官的癌变。然而,以往对体细胞突变的研究方法只停留在单个基因或单个氨基酸层面。事实上氨基酸序列上的体细胞突变事件是成簇地存在的,为了识别氨基酸序列上对癌症的形成具有促进作用的体细胞驱动突变类,本文提出了两种基于体细胞聚类的驱动突变模式挖掘方法,分别利用数据自适应核密度估计和热点突变识别的技术对氨基酸序列上的体细胞突变类进行探索。本文的主要工作包括以下两点:(1)提出了一种基于自适应核密度估计的驱动突变模式挖掘方法DMCM(Data-adaptive Mutation Clustering Method)。该方法改进了传统的依赖于固定核带宽的核密度估计模型,首先构造了一个数据自适应核带宽,从而形成自适应的核密度估计模型。然后利用该模型对泛癌体细胞突变数据进行突变密度估计,通过高斯分布模型确定突变类的边界,最后使用EM算法优化突变类的边界,得到最终体细胞突变类。试验结果表明,DMCM方法具有高鲁棒性,识别出的突变类是具有驱动意义的。(2)提出了 一种基于热点突变聚类的驱动突变模式挖掘方法HMCM(Hotspot Mutation Clustering Method)。该方法改进了传统热点突变研究方法只针对于单个氨基酸突变的不足,利用统计方法构造突变类得分,然后将突变热点从单个氨基酸位置向序列的两端扩展,并不断更新突变类得分,直到类得分收敛于最大值。通过对泛癌体细胞突变类型中错义突变和无义突变的分开识别,证明了HMCM方法具有识别和区分致癌驱动突变类和抑癌驱动突变类的能力。实验结果表明该方法是切实可行的。因此,DMCM和HMCM方法的提出,对于癌症致病机制的研究提供了新的方法和思路,对人类健康发展具有重要的意义。