论文部分内容阅读
随着人类基因组计划的完成,生物信息学已经进入了后基因组时代。对基因非编码区的研究已经成为研究的热点问题之一,其中一个主要研究方向是对转录因子结合位点的研究。目前,人们已经开发了许多识别和预测转录因子结合位点的算法和软件,如MatInspector、MEME、AlignACE、Gibbs sampler等。随着各种技术的发展,转录因子结合位点的识别已经得到了飞速的发展,但还有很多方面需要进一步完善和加强,转录因子结合位点的识别和预测,能够促进基因调控网络的研究和发展,有利于人们尽快掌握基因的调控机制,所以,转录因子结合位点的研究是生物信息学领域的一个非常重要的研究课题。本文将Z曲线理论引入到转录因子结合位点的研究中来,提出了基于Z曲线理论的坐标矩阵模型ZCCM(Z_Curve Coordination Matrix),ZCCM模型本质上是一条能够表示转录因子结合位点特性的中心曲线的坐标矩阵,能够较全面、较准确的描述转录因子结合位点的特征和保守性信息,提出了计算转录因子结合位点序列与中心曲线之间的相似性距离向量,并以其为特征,进行BP神经网络训练和分类,在大肠杆菌E. coli的转录因子结合位点的识别实验中取得了较好的结果,并与MetInspector方法进行了比较,实验表明,ZCCM模型具有良好的性能,能够较准确表示转录因子结合位点的特征,对数据信赖性较小,自身较为完善,有较好的稳定性和准确性。总之,本文提出了新的表示转录因子结合位点的ZCCM模型,给出构建模型的方法、算法步骤,并结合实验证明了该模型的优点和有效性,ZCCM模型能够较全面的表示转录因子结合位点的特征,实验表明本文提出的识别方法简洁、高效、准确,本文构建的ZCCM模型对于转录因子结合位点的研究具有一定的理论和实际意义。