论文部分内容阅读
随着人类基因组计划和其它一些模式生物基因组计划初步完成,生物信息学研究重点已从生物数据积累转到生物数据整合处理。由此,生物信息分析系统的构建及其数据挖掘成为生物信息学领域的研究热点。本研究以NCBI的三个数据库(Genome、RefSeq和Unigene)中的序列数据为基础,通过生物信息学方法,对基因组序列和全长mRNA序列进行比对,经过较为严格的质量控制和筛选规则,获得了大量高可信度的启动子数据,在此基础上建立了一个形式简洁、专用性较强的启动子生物信息二级数据库,并以Web形式发布到互联网上。启动子二级数据库的构建为基因组水平上转录调控方面的研究提供了坚实的数据基础。
近几年来,随着生物数据库增多和一些新实验技术出现,启动子的鉴定得到了较大的改善,使得大尺度上或基因组水平上研究转录调控成为可能。本研究使用自行构建的启动子数据库中的相关数据,分析了哺乳动物启动子序列TATA-box的数量、位点分布特征以及TATA-box与基因功能之间的关系。研究结果表明:1.仅有19.20%哺乳动物启动子序列中含有TATA-box,而且TATA-box主要分布在转录起始位点前24~36 bp的区域内;2.含有TATA-box的基因和不含TATA-box的基因在功能上存在细微的差异,含TATA-box基因可能跟相应刺激和组织器官初期发育有关,而不含TATA-box的基因可能跟基本生理过程的维持有关。