遗传疾病突变的数据挖掘分析

来源 :安徽大学 | 被引量 : 0次 | 上传用户:gjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于技术的发展以及成本的降低,基因组测序在孟德尔遗传疾病,复杂疾病,以及癌症基因检测中得到了运用,并产生了海量的测序数据。这些数据对研究疾病的致病机制、疾病的临床诊断、以及对疾病的个性化治疗都有重要意义。超过4000种人类遗传疾病的分子致病机制尚不清楚。研究表明,遗传疾病的发生机制与可变剪接密切相关,剪接位点是可变剪接机制的重要调控元素之一,在剪接位点层面上研究疾病的致病机制对遗传疾病的致病机制研究具有至关重要的作用。为了解决这个问题,本文采用序列模式挖掘模型研究遗传疾病的剪接位点致病突变。癌症是人类健康的最大威胁,识别潜在的原癌基因和抑癌基因不仅能提高我们对肿瘤发生和癌症演进的理解,而且有助于癌症个性化治疗的发展。过去几年的基因组测序研究产生了大量的癌症体细胞突变数据,但是如何解释这些序列信息仍然是一个巨大的挑战,在过去的研究中,人们根据携带突变的基因的功能对突变是否具有驱动性来识别驱动基因,还出现了很多方法对这种识别方法进行补充。虽然已经有一些计算工具可以预测突变的功能影响,但是它们的作用是有限的。因遗传疾病致病突变与癌症体细胞突变的共同突变建立影响蛋白质功能的分子机制,我们假设这些共享相同突变的基因是癌症驱动基因,在本文的研究中,我们利用遗传疾病致病突变与癌症体细胞突变的重叠突变来识别潜在的新型癌症驱动突变。本文的主要工作如下:(1)应用序列模式挖掘模型研究遗传疾病的剪接位点区域致病突变。本文应用的序列模式挖掘模型是频繁模式挖掘算法融合PSSM算法的模型,通过该模型的实验结果表明,该模型在区分遗传疾病致病突变与普通变异时具有良好的分类效果,遗传疾病剪接位点区域的致病变异使剪接位点信号变弱,从而使正常的剪接被破坏,导致疾病的发生。(2)利用遗传疾病致病突变识别癌症原癌基因和抑癌基因。在这项研究中,我们利用孟德尔疾病致病突变与癌症体细胞突变的重叠变异识别潜在的原癌基因和抑癌基因。因为遗传疾病致病突变与癌症体细胞突变共享突变已有影响蛋白质功能的明确分子机制,因此我们假设这些突变更可能是癌症驱动突变。我们的研究表明,癌症体细胞突变与遗传疾病致病突变的重叠突变在癌症中的突变频率较高,并在已知的癌症基因中富集。我们根据不同的重叠突变数目来识别潜在的肿瘤抑制基因,结果表明:离子通道、胶原蛋白、马方综合征相关基因可能是抑癌基因的新分类。然后在每种特异癌症类型中,我们根据高复发率,以及根据与癌基因基因突变互斥的重叠突变识别潜在原癌基因。总之,我们的研究表明可以使用遗传疾病致病突变和癌症体细胞突变的重叠突变从大量癌症基因组测序数据中发现新的癌症基因。
其他文献
近年来,随着网络通信的快速发展和无线通信技术的逐步成熟,手机、PDA、数码相机等微型化便携设备以其在不经PC中转的情况下就可以进行互联、通信的优势迅速普及。与此同时,车辆
随着对流聚类研究的深入,许多研究者提出了对不确定数据流的聚类,这是由于生活中不确定数据存在着重要的应用价值。不确定数据流既保留数据流无限,快速的特性,又存在不确定特性,这
近几年国内外学者已经对手部多特征融合识别技术做了大量的研究,主要包括掌纹和手型融合识别,指纹、掌纹和手型融合识别,手背静脉和指关节融合识别,指静脉和指背部融合识别,
随着数字媒体技术和社交网络的发展与普及,越来越多的网络信息以包含多种模态数据的多媒体文档的形式出现。传统的文档检索已经不能满足人们的需求,如何有效的从这些海量多媒体
学位
2000年,R. Ahlswede等人提出了网络编码的概念,它完全颠覆了传统的路由方式。网络编码技术允许网络节点对接收到的数据信息进行编码处理,然后将编码数据包发送出去;接收端根
识别蛋白质相互作用网络中的模块结构,是理解细胞功能的组织结构以及动态性的第一步。因而,如何在蛋白质相互作用网络中寻找模块结构便成为一项十分重要而且极具挑战的任务。目
随着信息技术的迅速发展和现代教育需求的增长,E-learning(Electronic learning)逐渐成为人们生活中重要的学习方式。E-learning具有良好的交互性和较小的时空约束性,它能够不受
目标跟踪是计算机视觉和模式识别领域当前的研究热点问题之一,并且在诸如智能导航、自动监控、军事防御、人机交互等方面有着广泛的实际应用。虽然目标跟踪经过几十年的发展
第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)考虑到互联网和传统运营商的融合,引入了IP多媒体子系统(IP Multimedia Subsystem,IMS)作为核心网的发展方向