论文部分内容阅读
对生物学家得到的海量数据进行有效的分析和利用是后基因组时代人们所面临的巨大挑战.其中,对DNA序列的分析具有着举足轻重的地位,它对于人们了解遗传信息的传递机制和认识复杂的基因调控网络,从而进一步探索各种遗传疾病的基因治疗有着巨大的意义.由于转录是基因表达的关键一步,对生物基因的转录启动子的识别又是DNA序列分析中极具挑战性的研究课题.在该文中,我们对脊椎动物的启动子的识别进行了研究.通过对转录因子结合位点(TFBS)出现频率的统计分析,我们发现它们之间存在着协同合作关系.基于这个发现,我们建立了启动子识别的随机语言学模型.我们的模型与目前国际上较为流行的通过识别CpG岛及转录起始点(TSS)附近的序列统计来识别启动子的算法有本质的不同,这是因为我们的模型的重点在于识别对转录起始起关键作用的核心启动子序列段,因此我们的预测结果不仅有更为清晰的生物学意义,而且实验生物学家更容易利用我们的结果,特别是更容易验证所我们预测的序列是否的确是启动子的核心部位.经过交叉验证,我们的算法在10﹪的错误率水平下可以识别出EPD数据库中脊椎动物的90﹪的基因的启动子.将我们的算法用到北京大学人类疾病基因研究中心所发现的新基因CKLFSF1上,相当精确地定位了启动子的核心部位,这一预测已为该中心实验证实.通过对目前已有的人类基因的分析,我们发现约60﹪的基因的启动子和转录起始点在DNA序列上的位置是相近的;其余的基因的启动子到转录起始点的距离则超过500bp,甚至可达数千bp.我们进一步较为初步的研究还发现,人的基因的启动子和拟南芥基因的启动子从转录因子结合位点的角度来看事实上有很强的相似性,这对我们利用已有的物种的启动子的研究结果推断其它物种启动子特性提供了理论支持.