高通量DNA甲基化数据的特征挖掘算法开发及分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ade4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哺乳动物基因组上, DNA甲基化在基因转录、细胞分化、衰老和肿瘤的发生中发挥着重要作用。新一代测序技术和重亚硫酸盐转换法结合形成的重亚硫酸盐测序技术(BS-seq)是目前可精确检测胞嘧啶甲基化的“金标准”方法,该技术打开了在基因组水平上系统研究DNA甲基化模式的大门。然而从数以千万个CpG位点构成的 DNA甲基化谱中识别出具有显著生物学功能的区域对于实验科学家是难以实现的,高通量数据的处理和分析已成为生物数学家和生物信息学家关注的热点问题。本研究通过开发新算法从高通量的BS-seq数据中识别和分析基因组区域的甲基化模式,结合人类基因组注释信息和蛋白质互作信息,构建数学模型研究在细胞分化及癌症的发生过程中DNA甲基化模式的动态改变及识别相关生物学标记。主要结果如下:  1)本研究开发一个处理和分析高通量BS-seq数据的新方法CpG_MPs,它包括以下四个主要功能。I)开发数据标准化算法,把高通量的BS-seq数据转化成标准化的CpG甲基化水平数据;II)基于单碱基通量的DNA甲基化标准谱,开发新的搜索算法(热点扩增法)来精确地识别基因组范围内(非)甲基化区域,它突破了传统窗口移动法依赖窗口大小和步长等缺点,可以精确识别不同甲基化模式区域的边界。III)基于组合算法和原始信息熵,开发定性识别和定量评估相结合的算法来识别和分析成对或多样本间保守或差异的甲基化区域,此算法与基于窗口移动的Fisher精确检验法相比,可以识别大量新的、短的差异甲基化区域。IV)提供了一个功能模块用于基因组区域的序列特征挖掘和可视化。CpG_MPs应用于人类胚胎干细胞分化过程中五种细胞系的DNA甲基化测序数据,发现它可精确识别每种细胞系的基因组区域的DNA甲基化模式及细胞系间保守和差异的DNA甲基化区域。CpG_MPs提供了一个系统的软件,从BS-seq测序数据中精确地、高效地识别和分析基因组范围内DNA甲基化模式。  2)人类重复序列占人类基因组DNA序列的一半以上,重复元件的DNA甲基化模式在细胞分化过程中发挥着重要的作用。本研究基于CpG_MPs处理的人类胚胎干细胞和胎儿成纤维细胞的DNA甲基化谱,通过比较基因组学方法对九种重复类型的甲基化谱进行了系统的研究。在两个细胞系间,发现DNA甲基化动态改变的潜能在重复类型间、基因组不同区域间都有显著不同,且具有显著的序列偏好性。从胚胎干细胞到成体细胞的转变过程,大约25%的重复元件的甲基化模式发生重编程,差异甲基化重复元件的靶基因与基因沉默显著相关,重新甲基化的靶基因主要富集在与细胞分化和发育相关的生物学功能上。  3)癌症是严重影响人类健康的复杂疾病,癌基因的识别和分析对癌症早期诊断和治疗都有着重要的意义。本研究整合了人类基因组范围内的蛋白质互作数据和四种癌症细胞上高通量DNA甲基化数据,重构了人类蛋白质加权互作网络(WHPN)。从网络WHPN中通过种子基因进行网络优化,挖掘出癌症显著相关的子网络(CASN)。网络拓扑性质的分析表明子网络CASN比WHPN有更显著的连通性、模块性。通过临界权重决策函数对子网CASN中基因进行优化,筛选出154个甲基化异常的癌症候选基因。功能富集分析发现它们富集在与调控细胞凋亡及程序性死亡等生物学过程,及与癌症相关的重要生物学通路上。癌症基因表达谱的差异表达分析发现,五分之四的差异表达的基因都在候选基因集中,表明癌症细胞上甲基化异常和表达改变密切相关。通过文献证实发现本研究识别的部分候选基因是癌症的诊断、预后、治疗和药物靶向的重要标记物。
其他文献
本论文主要通过弱化c#-正规子群的条件,引入弱c#-正规子群概念以及研究其对有限群可解性,p可解性,p超可解性和p幂零性的影响.  第一章,研究弱c#-正规对群可解性的影响.引入了子群特
低成本医疗设备是农村医疗发展的一个方向,对农村医疗体系的建设具有很大的意义。低成本医疗器械要求医疗器械在保证器械基本功能的条件下,尽可能的降低医疗器械的制造和使用成
零差平衡函数(zero-difference balanced functions)是由丁存生在研究常重复合码时定义的一种组合结构.常重复合码是在通信工程领域中为研究平衡调度和电力传输而提出的一类
扩散现象是自然界中非常普遍的一种现象,我们可以通过具有扩散项的偏微分方程描述、揭示这种自然现象的内在运动规律。反应扩散方程则是在扩散方程中增添了反应项形成的,在人
在CDMA系统中,codebook被用来区分来自不同用户的信号,而满足Welch界的codebook被认为是最佳的情形,称为MWBE codebook.丁存生在文献[4]中利用有限域Fq的分圆差集和非分圆差集构
孤于理论是非线性科学的一个重要分支.寻求非线性偏微分方程的具体精确解,在孤、于理论中扮演着重要角色.当今,随着计算符号系统的应用,如MAPLE和MATHEMATICA,一些复杂冗长的