论文部分内容阅读
人类基因组计划的开展,产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要工作。作为其中的一个工作,真核生物基因启动子区域的识别是一个难点。为了从基因中分割外显子序列,启动子这一提供生物学功能的富含信息的信号序列是必不可少的。本文在分析了真核生物基因启动子的相对保守序列的基础上,利用真核生物基因启动子的TATA盒、CAAT盒和GC盒的相对保守性和其统计学事实,结合进化神经网络建立了真核生物基因启动子的识别模型,并且设计了计算机仿真程序。主要的工作和结论如下:(1) 由于真核生物基因启动子区域的保守序列具有一定的假阳性,利用传统的基于物理化学原理的方法无法把序列间的关系和相关特征表现出来,神经网络这一具有自学习、自适应能力的系统可以很好的解决此弊病。但是神经网络存在训练速度慢,易陷入局域极小值和全局搜索能力弱等缺点。在研究了遗传算法后,发现它可以较好地改进以上的缺点。所以在此基础上,利用进化神经网络,采取BP算法和遗传算法建立了真核生物基因启动子识别模型。(2) 对设计好的识别模型进行了计算机仿真程序设计,利用从EPD(真核生物启动子数据库)下载的数据对建立好的识别模型进行了训练,然后用对于模型未知的数据对模型进行了预测,结果表明识别模型的建立是比较成功的。(3) 为非编码区其它组分的智能确定模型的建立提供了一个通用的模版。