论文部分内容阅读
蛋白质是生物活动过程中不可缺少的物质,其中有一种蛋白质是同基因结合在一起的,对基因的表达与调控起着决定性作用。想要对这些DNA蛋白进行进一步的分析,寻找和识别这些DNA蛋白的结合位点是不可或缺的一项重要工作,也是本研究的研究重点和研究难点之所在。近几年的研究中,对DNA蛋白结合位点的识别主要采用的办法是ChIP-Seq技术,即将染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)与高通量测序技术这两种方法互相结合,高通量测序数据被称为Seq数据。但是这种技术由于高耗能,检验精度低,无法一次分离出全基因组内的多种蛋白等多种无法克服的缺点,使得DNase-Seq技术即基于DNase高通量测序信息的DNA蛋白结合位点的识别技术逐渐成为研究热点。由于它的实验原理不具有特异性,所以DNase-Seq技术理论上几乎可以克服ChIP-Seq技术的所有缺点,成为促进DNA蛋白结合位点研究的首选。在研究中,首先需要在DNA蛋白位点的开放区域内获取实验所需数据,在实验数据的获取阶段主要是以ChIP-Seq技术为基础,利用GEM软件,得到某个DNA蛋白的一系列结合位点。之后提取这一系列结合位点的DNase高通测序信息,即DNase-Seq数据。之后对上述数据分别进行对齐、过滤、去除干扰信号的操作后就可形成训练数据。使用训练数据进行识别特征的提取,并且训练构建基于DNase数据的识别算法。最后将基于DNase数据的算法与基于Seq数据的算法相结合,得到最终基于DNase高通测序信息的识别模型。在对预测模型的验证过程中,本研究选用了 ROC曲线的方法,利用ROC曲线下面积的大小来判断分类效果的好坏。主要分别对基于DNase数据的预测模型、基于Seq数据的预测模型,并且还有基于DNase-Seq数据的预测模型进行了验证。结果不仅表明仅单一的依靠DNase数据就可以使模型的分类效果良好,这是对DNase数据研究的一个突破。更表明了本研究提出的最终模型的分类效果非常有效,即将传统的基于Seq数据的预测模型和基于DNase数据的预测模型相结合后所组成的模型有效提高了分类效果。实验结果充分证明了基于DNase高通量测序信息的预测模型是准确可靠的。