序列复杂度方法在DNA调控元件预测中的应用研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:jack_123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划发现,人类基因组中超过98%的区域是非编码区域。ENCODE、Roadmap epigenomics等后续计划进一步发现,非编码DNA中包含如DNA甲基化位点、启动子、增强子等众多DNA调控元件。DNA调控元件通过激活或抑制转录事件,精准地调控目标基因的表达量。一方面,这些DNA调控元件正是由于其环境序列的特异性才能够参与转录调控;另一方面,DNA序列在数学上可被视为有限字母表上的有限词,研究其复杂度特征可以挖掘DNA的序列特异性。这激发我们通过序列复杂度数学工具来量化识别DNA调控元件。本研究分为以下三部分:第一部分,我们详细描述两种序列复杂度的数学定义,重点研究其计算算法,并通过特征选择筛选出有效特征。首先根据不同序列长度确定因子复杂度的算法获取原始特征,随后根据二阶差分工具筛选拓扑熵特征,并最终确定因子复杂度的有效特征。同时,我们研究了abelian复杂度的数学定义和计算算法,并通过对abelian复杂度特征进行特征筛选确定出其有效特征。第二部分,我们应用因子复杂度有效特征构建Cp G甲基化水平预测模型。我们首先获取人类胚胎细胞的甲基化实验数据,并筛选其中的Cp G甲基化位点。在将位点扩增至合适长度之后,我们提取序列因子复杂度特征和序列的基本组成特征,并构建了基于支持向量机算法的Cp G甲基化水平预测模型,该模型在不同染色体上的平均分类准确率为94.7%。与已发表工具的比较中,我们的模型获取了更高的预测准确率。最后我们利用已构建的预测模型预测全基因组水平不同功能元件中的Cp G甲基化平均水平,通过与实验数据的对比,进一步验证了该模型的预测能力。第三部分,我们应用abelian复杂度特征构建增强子预测模型。我们从FANTOM5计划的数据库中获取人类基因组的增强子数据,通过提取序列abelian复杂度特征和序列基本组成特征,构建了基于随机森林算法的增强子预测模型,其中正负样本1:1模型的分类准确率为93.1%,正负样本1:10模型的分类准确率为96.0%。在与已发表工具的比较中,我们的模型获取了更高的预测准确率。最后利用该模型在人类基因组22号染色体进行步长为100 bp的扫描预测,成功预测到5,123条增强子区域。以不同细胞系和组织的组蛋白修饰信号为佐证,扫描预测准确率最高可达42.8%。综上所述,我们通过研究序列的因子复杂度特征和abelian复杂度特征,结合基本序列组成特征,成功构建了DNA甲基化、增强子等DNA调控元件的精准预测模型。基于预测模型的全基因组扫描预测结果可以缩小和降低相关生物学实验的目标范围和难度,为相关研究工作提供了有力的参考和指导,有助于解析人类复杂疾病的转录调控机制和完善人类基因组功能元件的注释。
其他文献
1引言鄂尔多斯盆地位于中国大陆中西部,横跨陕、甘、宁、蒙、晋五省(区),面积约25万km2,为中国第二大沉积盆地[1]。前人据其现今构造形态及盆地演化史,将盆地划分为伊盟隆起、渭北隆起、西缘冲断构造带、天环向斜、晋西挠褶带、陕北斜坡六个一级构造单元[2]。多位学者研究表明,煤、石油、天然气、铀、油页岩、页岩气、镓矿、钾盐及高岭土同盆共存于鄂尔多斯盆地;砂岩型铀矿与油
会议
实现对城市空气质量的精准预测和评估对于生产和生活具有重要意义。以乌鲁木齐为例在分析其气象条件、主要污染企业和污染源排放量的基础上,建立了中尺度数值模拟模型,并对模型进行设计和结合当地气象条件对其进行设置。分别研究了不同时段和同一时段对应不同边界层参数方案对空气质量模拟结果的影响。得出Gayno-Seaman PBL方案为最佳模拟空气质量的方案。
自然语言接口的语义分析任务是将自然语言指令转化为某种目标系统的形式化描述逻辑,是对自然语言的形式化建模,但语义分析模型在可视化、并发性、复杂度、一致性、可变性等方面还不够完善。在吸收语义网、深度网络、依存分析等现有概念基础上,提出一种综合的意元网络MNet的语义分析方法。MNet由意元、内关系、外关系及特征属性构成,并通过层次化递归的方式进行定义,期待面向从短语、句子到篇章的整体语义空间描述。从元
流感病毒单股负链分节段的基因组结构特点赋予了重组是流感病毒不断进化、跨种传播和不断流行的重要方式。H5N1高致病性禽流感病毒一直被认为极有可能进化为潜在的大流行毒株,而2009年爆发的甲型H1N1流感病毒(H1N1/2009)及其在猪体内的稳定感染增加了人们对于H5N1可能会与H1N1/2009重组进而产生极具危害性的新型重组病毒的担忧。本研究采用H5N1与H1N1/2009小鼠体内共感染的方式研
概述了压裂前与压裂后不同时期的压裂液实现降黏、渗吸、酸化、调剖和驱油功能的原理与方法,综述了压裂液多功能性的研发现状,为开发低成本多功能压裂液提供思路。
电厂发展过程中信息传递与共享方式不充分,导致系统无法有效处理联动信息,不利于对电厂人员的安全管理,因此基于物联网技术,设计全新的电厂人员安全管理监控系统。在硬件设计方面,更换视频监控主要设备,重新选取使用网络、设计硬件组成。在软件方面,基于物联网技术的多样化特征,设计系统对人员的定位监控功能、系统的关联分析与联动操作功能、系统告警功能。实验结果表明:此次研究设计的监控系统具有极高的联动性能,可以反
布鲁氏菌(Brucella spp.)是兼性胞内寄生菌,是布鲁氏菌病的病原。布鲁氏菌病是世界范围内新兴的动物传染病。布鲁氏菌具有独特的调控宿主免疫系统的机制,具有感染巨噬细胞的能力。自然宿主如绵羊、山羊和牛感染布鲁氏菌后会影响生殖系统,导致流产和不育;人感染布鲁氏菌后会虚弱、发热,主要特征为波浪热。在低收入国家中,羊种布鲁氏菌、牛种布鲁氏菌和猪种布鲁氏菌是最常见的三种布鲁氏菌,它们导致经济损失,危
永生细胞系具有无限增殖能力,其自我更新能力、增殖分化模式、基因表达调控以及癌症等疾病研究一直以来也是分子细胞生物学领域的研究热点与难点。细胞永生化是指细胞在体外培养的时候,由于自身基因改变或者外界因素刺激,例如细胞周期检查点通路受损、端粒酶的再次激活上调、原癌基因激活等影响,使细胞分裂加快,并突破了自我衰老与凋亡机制,从而实现了无限增殖,可以进行长期传代培养。目前,科研人员已成功建立了很多不同物种
学位