基于DNase高通测序信息的DNA蛋白结合位点分析

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zsj1502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物活动过程中不可缺少的物质,其中有一种蛋白质是同基因结合在一起的,对基因的表达与调控起着决定性作用。想要对这些DNA蛋白进行进一步的分析,寻找和识别这些DNA蛋白的结合位点是不可或缺的一项重要工作,也是本研究的研究重点和研究难点之所在。近几年的研究中,对DNA蛋白结合位点的识别主要采用的办法是ChIP-Seq技术,即将染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)与高通量测序技术这两种方法互相结合,高通量测序数据被称为Seq数据。但是这种技术由于高耗能,检验精度低,无法一次分离出全基因组内的多种蛋白等多种无法克服的缺点,使得DNase-Seq技术即基于DNase高通量测序信息的DNA蛋白结合位点的识别技术逐渐成为研究热点。由于它的实验原理不具有特异性,所以DNase-Seq技术理论上几乎可以克服ChIP-Seq技术的所有缺点,成为促进DNA蛋白结合位点研究的首选。在研究中,首先需要在DNA蛋白位点的开放区域内获取实验所需数据,在实验数据的获取阶段主要是以ChIP-Seq技术为基础,利用GEM软件,得到某个DNA蛋白的一系列结合位点。之后提取这一系列结合位点的DNase高通测序信息,即DNase-Seq数据。之后对上述数据分别进行对齐、过滤、去除干扰信号的操作后就可形成训练数据。使用训练数据进行识别特征的提取,并且训练构建基于DNase数据的识别算法。最后将基于DNase数据的算法与基于Seq数据的算法相结合,得到最终基于DNase高通测序信息的识别模型。在对预测模型的验证过程中,本研究选用了 ROC曲线的方法,利用ROC曲线下面积的大小来判断分类效果的好坏。主要分别对基于DNase数据的预测模型、基于Seq数据的预测模型,并且还有基于DNase-Seq数据的预测模型进行了验证。结果不仅表明仅单一的依靠DNase数据就可以使模型的分类效果良好,这是对DNase数据研究的一个突破。更表明了本研究提出的最终模型的分类效果非常有效,即将传统的基于Seq数据的预测模型和基于DNase数据的预测模型相结合后所组成的模型有效提高了分类效果。实验结果充分证明了基于DNase高通量测序信息的预测模型是准确可靠的。
其他文献
柴油发动机是各种大功率工程运输工具的主要动力源,高压共轨式发动机将喷射压力与喷射过程解耦控制,是内燃机领域研究与开发的热点。柴油机存在着普遍的能耗大,污染严重等问题,当
Magnus旋转式减摇装置是一种新型的船舶减摇装置,在低航速甚至零航速下具有很好的减摇效果。另外,Magnus旋转式减摇装置还具有体积小,重量轻,结构简单,安装方便,驱动功率小等
随着世界经济的发展,能源问题日益严峻,能源需求及能源相关二氧化碳的排放已经成为国内外学术界和各国政府共同关注的热点话题。中国作为世界上最大的发展中国家、第二大能源
随着电力电子器件在电力系统中投入使用,电网中产生了大量的谐波,严重影响着电力系统的安全运行。所以要最大限度地对谐波进行抑制与消除,解决此问题的关键在于能准确的检测出各
结合了多种先进技术的智能交通系统(ITS)在解决当前存在的诸多交通问题中显现出越来越重要的作用,交通信息采集作为基础环节在整个ITS中有着重要的作用。视频检测相比于传统信息
目前能源危机日趋明显,世界各国对节能减排提出了更高的要求,在此背景下低污染、低油耗和高功率成为柴油发动机的主要发展趋势。高压共轨电控喷射柴油发动机在降低排放、提高效
发射机作为广播电视节目信号发射的主要设备,其长期、稳定、可靠地工作对广电系统具有十介重要的意义。随着科学技术的飞速发展,发射机控制系统已成为发射机的核心部分,对实现发
图像局部特征的提取与匹配是图形图像和计算机视觉领域的一个十分重要的问题,具有仿射、光照、部分遮挡不变性的特征提取和匹配是图像局部特征的提取与匹配问题的核心内容。尺
音频信号的处理和研究对当今生活具有重要意义。本文主要针对连续音频流的若干特征和相关结构化参数进行了分析,详细介绍了应用聚类和模糊聚类分析进行分类器的设计方法,优化
随着分子生物领域的发展,基因芯片技术得到快速提高,基因表达谱数据的获取已经变得越来越方便、可靠。但样本数量小、维数高、基因间关系复杂、信噪比低等特性给基因表达谱数据