论文部分内容阅读
DNA复制是保持亲代到子代遗传信息稳定传递的关键步骤,是生物遗传的基础。复制起始于基因组的特殊位点,称为复制起始位点(ORIs)。复制起始位点对DNA复制的起始进行调控,在复制机制中扮演着十分重要的角色。研究复制起始位点不仅有助于理解细胞分裂周期和基因的表达调控,而且在遗传病的新药研究中会提供新的策略。因此,对DNA复制起始位点的准确识别将为DNA复制机制的探究及药物研发提供十分重要的线索。目前,众多湿实验技术能够精确捕获复制起始位点的位置,但庞大的数据量需要较长的周期,还需要投入大量的经费,因此,开发基于计算机的研究方法是很有必要的。而与此同时,生物信息学手段已经成功应用于功能基因组学和蛋白质组学领域,并随着三代测序产生的爆炸性数据量,使得采用计算机方法识别复制起始位点成为可能。本文中研究中,我们构建了第一个多物种真核生物复制起始位点的集成预测器ORi-Pred。首先,从数据库DeOri和OriDB获取了人类、小鼠、果蝇、拟南芥、酿酒酵母、毕赤酵母、裂殖酵母和乳酸克鲁维酵母八个真核生物的DNA复制起始位点数据集,基于支持向量机(SVM)五折叠交叉检验分别用k-mer、理化性质矩阵、二进制编码三种特征提取算法表征序列并比较结果,对最佳特征提取算法获得的特征用F-score进行特征筛选,并基于最佳特征集将SVM与其他算法比较获得每个物种的最佳分类模型。由于酿酒酵母具有作为模式生物的独特优势,前人在研究真核DNA复制起始位点时多将其作为实验研究对象,因此提升模型对酿酒酵母复制起始位点的预测精度对实验人员具有重要的指导意义。基于此,我们在现有的准确率为84.83%的酿酒酵母复制起始位点分类模型的基础上,使用二型伪核苷酸方法提取序列特征,通过两步特征筛选策略,最终获得了准确率为88.53%的酿酒酵母最佳分类结果。综上所述,人类、小鼠、果蝇、拟南芥、酿酒酵母、毕赤酵母、裂殖酵母、乳酸克鲁维酵母八个物种的最佳模型的准确率和ROC曲线下的面积分别为88.40%和0.947、85.03%和0.909、87.38%和0.946、82.64%和0.870、88.53%和0.905、90.45%和0.948、93.99%和0.978、83.82%和0.890。最后为了方便相关领域研究者使用,我们基于八个物种的最佳分类模型构建了一个多物种真核生物复制起始位点集成预测器ORi-Pred(http://lin-group.cn/server/ORI-Pred/)。