论文部分内容阅读
本文主要利用核小体二联体的绝对频率来研究核小体的辨别和预测。在真核细胞的染色质中,核小体是主要的组成单位。核小体定位就是测定核小体序列在基因组全序列上的精确位置。核小体的辨别与定位的研究,对于理解转录因子结合和转录调控机制等许多生物生理过程具有十分重要的作用。最近的研究表明在DNA复制与修复、可变剪接、基因转录调控等基本生命过程中核小体定位也都起着十分重要的作用,而且DNA序列与基因表达调控的进化也也是在核小体的调控下进行的。近年来由于CHIP-CHIP与CHIP-seq等高通量技术的出现和发展,核小体定位的研究出现了新的高潮,并且取得了一定的进展和成果。在现有的核小体辨别和定位的方法基础匕,本文将尝试创造一种新的核小体定位模型。在这里,我们引入了核小体二联体绝对频率,使用它我们把每个核小体进行向量化,使使用数学方法处理核小体数据成为可能。然后我们改进了一种距离判别方法,使之用来进行核小体的辨别和预测,最后通过已有数据集对模型进行检测,验证了新模型的有效及可行性。本文主要有以下几个方而的成果:一、引入了核小体二联体绝对频率的概念:不同于以往文章在考虑核小体对序列的依赖性时,没有使用二联体、三联体等传统统计量,而是使用核小体二联体绝对频率(absolute frequency),从而得到了较简洁的向量。二、寻找一种简洁的计算方式来计算核小体的相似性分析,很大程度上简化了计算的复杂度,使大数据量的核小体计算难度降低。三、综合使用距离和机器学习方法对核小体定位进行预测:通过计算距离和机器学习方法建立核小体定位模型,对酿酒酵母菌染色体中的核小体定位进行验证,得到了十分满意的准确率。四通过对核小体预测结果的分析,总结出了新模型的适用范围及局限。我们使用核苷酸二联体绝对频率得到了一个更精确地结果,但是影响核小体定位的因素有很多,例如DNA序列的依赖性、蛋白质分子的竞争与合作、ATP依赖重塑复合物等多种因素。如果我们能在向量中增加这些因素,比如周期性和曲率,得到的结果可能更好。另外,不同物种间核苷酸二联体绝对频率的依赖程度不同,使得预测结果存在差异,准确性还需要用实验的手段进行验证,新方法的适用范围还要进一步的研究进行明确。