基于ChIP-exo和ATAC-seq的转录因子结合位点预测

来源 :山东大学 | 被引量 : 0次 | 上传用户:yh124712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门信息科学与生物学的交叉学科,主题是研究如何深入利用数学方法研究生物问题。除此之外,生物信息学的飞速发展也离不开计算机领域的技术进步。生物信息学的终极目标是揭示高通量、高复杂度的生物数据背后蕴含的生物学规律。特别地,在生物学和医学应用中,探索基因转录表达机制的秘密一直以来都是科学家研究的重点。深入研究转录调控机制对于人类治疗遗传疾病、发展基因工程有着重大意义。DNA双螺旋结构的发现使人类开始从分子层面探索遗传机制。之后,伴随着计算机科技的进步,人类对遗传物质和遗传机制的认识取得了突飞猛进的发展。测序技术的进步有效地提高了遗传信息的测序精度,降低了实验成本。实验研究证明,转录因子通过与DNA上特定序列结合的方式控制基因表达,这些结合位点被称为转录因子结合位点。在生物信息学中,这些转录因子结合位点通常用数学模型“模体”来表示。因此,DNA模体的发现和识别对研究基因功能、探索转录调控机制至关重要。DNA模体的发现与识别在研究转录因子结合位点的过程中起着重要作用。在过去的几十年里,已经有很多算法利用ChIP-seq数据来进行快速准确的模体发现工作。然而,利用ChIP-exo数据来进行模体发现工作的算法还比较少。ChIP-exo数据来自由ChIP-seq技术发展来的衍生技术ChIP-exo。由于ChIP-exo技术无法将ChIP信号整合到核苷酸分辨率中,因此利用ChIP-exo数据来进行转录因子结合位点识别是非常困难的。为了克服这种困难,我们提出了一个基于二阶加权的比对工具TESA。该框架采用了二项分布模型和带有ChIP-exo读取深度和序列数据的图搜索模型。TESA不但可以有效地测量在给定启动子序列中每个位置成为实际转录因子结合位点的可能性,而且能够预测具有统计学意义的转录因子序列。实验结果显示,TESA不仅显著提高了预测精度,而且扩展了现有方法的适用范围。我们将TESA应用于大肠杆菌k12基因组并且与七个现有方法进行比较,进而来评估该框架的预测性能。评估结果表明,TESA能够有效识别原核基因组中的调控模体。除了ChIP-exo技术之外,随着揭示染色质可及性的ATAC-seq技术的逐渐普及和针对ATAC-seq特有的Tn5转座酶设计的足迹搜索工具的发展,在大规模ATAC-seq数据的染色质可及性水平上挖掘模体成为可能。ATAC-seq的模体识别依赖于足迹搜索,而足迹搜索工具产生的大量短序列对现有基于ChIP-seq的从头搜索模体算法的准确性和工作效率提出了较大的挑战。因此,我们提出了一种新的基于ATAC-seq数据来进行模体发现工作的算法CEMIG。该算法利用在处理大量短序列方面有优势的德布鲁因图来准确预测并找到新的模体。通过与几种广泛流行的预测算法进行对照实验,CEMIG算法被证明在预测精度和预测鲁棒性方面具有明显的优势。
其他文献
目的:探讨内镜黏膜下剥离术治疗大肠侧向发育型肿瘤患者的疗效。方法:选取2018年1月至2022年7月在阳江市人民医院行内镜手术治疗大肠侧向发育型肿瘤的68例患者,随机分为两组,观察组33例行内镜黏膜下剥离术治疗,对照组35例行内镜下黏膜切除术治疗,比较两组患者治疗效果。结果:观察组患者手术时间、住院时间、术中出血量均多于对照组,差异具有统计学意义(P <0.05);观察组患者完整切除率、≥3 cm
期刊
活细胞构成大量生物实体之间相互作用的复杂系统。基因、转录产物、蛋白质、代谢物和物种以时间和空间控制的方式进行细胞过程。通常,这些相互作用及其参数不能通过实验直接测量。2013年标志着单细胞测序被公认为最有希望解决复杂生物学研究问题的测序方法。从那时起,单细胞测序技术得到了进步,导致单细胞数据显著增加。然而,处理这些庞大而复杂的数据集的计算挑战增加了三倍。通常,单细胞测序技术需要设计一个建模方法,然
学位
正T-S模糊时滞系统是一类刻画正性、非线性和时滞等多重性质的特殊动态系统,此类系统可以用于建模一些医学领域、生态领域的实际系统,因而受到了广大学者的关注.耗散性问题作为控制理论中的经典问题,在电路、网络等实际系统有着广泛的应用.目前正T-S模糊时滞系统的稳定性研究成果较多,而耗散性成果相对较少,存在一些挑战性问题.因此正T-S模糊时滞系统的耗散性分析及其控制问题具有重要的理论价值和实际意义.本文考
学位
<正>生态文明建设是实现人、自然、社会可持续发展的重大系统工程。我国立足新时代的高质量发展及社会主要矛盾的转变,提出要将生态文明建设与实现现代化战略目标结合起来,将其提升为中华民族永续发展的千年大计,把生态文明建设提高到前所未有的战略高度。当前我国学术界对生态文明建设的研究成果颇丰,《中国生态文明建设理论与实践》一书立足于历史发展新阶段,
期刊
语文学是我国传统的以文字或书面语言为研究对象,注重文献资料考证和故训寻求的一门学科。其研究范围涉及文字学、音韵学、训诂学和古典文献学等,与经学的联系十分紧密。本文认为,凡在小学(文字、音韵、训诂)、古典文献学和儒家经典、诸子学说的研究、传承中有所建树的人都应算作语文学家,其中也包括在语文教育方面做出贡献的人。宋代是中国文化发展的繁荣时期,山东地区的语文学家在文字学、音韵学、训诂学、文献学等领域的学
学位
伪随机图是一类具有类似于随机图性质的确定图类.自二十世纪80年代以来,伪随机图与伪随机超图(也被称为均匀稠密超图)的研究受到了广泛关注,对他们的研究极大地推动了极值组合学的发展.给定一个k一致超图(简称k-图)H=(V(H),E(H)),对于V(H)上任意k个可交的集合A1,…,Ak,如果都满足e(A1,…,Ak)≥ p|A1|…|Ak|-μ|V(H)|k,那么称H是(p,μ)-稠密的.这一性质一
学位
双曲系统在实际生活中有着非常广泛的应用领域,近年来人们对其在有限时间内的边界镇定问题给予了很大关注,有关双曲系统的研究成果也愈发增多。但是,到目前为止绝大部分的研究更集中于系统参数仅依赖于空间变量的情况,对于非自治双曲系统在有限时间内边界镇定问题的研究相对还不够成熟。在控制理论中,Backstepping方法是解决各类一维一阶双曲系统边界镇定问题的一种系统性方法。因此,本文利用改进的Backste
学位
糖尿病视网膜病变是糖尿病眼部并发症之一,在早期没有任何明显的症状,随着病情的不断发展,会对患者视力造成不可逆的损伤。因此对于糖尿病视网膜病变患者,在发病早期进行干预和治疗是十分必要的。本文重点研究了糖尿病视网膜病变自动筛查以及眼底图像病灶分割算法。主要工作概括如下:1.对于糖尿病视网膜病变患者眼底图像病灶分割任务。考虑到病灶与背景之间存在类不平衡以及对于分割任务像素级标注的医学图像数量较少等问题,
学位
对于非负整数无穷序列A和B,如果它们的和A+B={a+b:a ∈ A,b∈B}包含所有充分大的整数,那么我们称A和B为加法补集.令A(x)和B(x)是A和B的计数函数.2014年,Fang和Chen证明了:对于加法补集A和B,若2016年,Liu和Fang证明:对于任意的正整数a,b,其中2≤a≤b,则存在加法补集A和B,使得且存在无穷多个正整数x满足A(x)B(x)-x=1.本文推广了 Liu和
学位
拟随机(超)图是一类具有与随机(超)图相似性质的确定(超)图.它们的研究推动了极值组合领域许多方向的发展,如拉姆齐理论,扩展图及性质测试等.不同于随机图,验证一类图是否具有拟随机性是相对容易的.Turán类型问题研究在禁止一类固定的子结构下(超)图所能具有的最大边密度.超图的Turán问题是相当困难的,其中一个重要原因是某些不具有给定结构的拟随机图作为极值反例.这与图的情形截然不同,因为具有正密度
学位