论文部分内容阅读
新一代测序数据的出现和其惊人的进步,为发展生物信息学研究方法,在全基因组中预测基因的启动子区域及转录因子结合位点,从而更好地阐明和理解基因转录调控机制奠定了基础。基因选择性启动子的注释对我们理解基因的生物学特性及它们的调控靶向是极为重要的。这个信息可以用于对基因上游调控区域的预测、对基因周边的其他序列和结构域亚单元的预测。双向启动子拥有调控两个下游基因的能力。双向启动子区域的一些转录因子结合位点同时影响着方向相反的两个基因的表达。另外,双向启动子在许多哺乳类的基因中被发现是普遍存在的基因结构,这暗示着保留这种基因对的结构存在着进化压力。尽管现在已存在很多可用的启动子识别方法,由于区域的独特特点,这些识别方法并不适用于选择性启动子和双向启动子的预测。本文的主要研究内容分为两个部分:对选择性启动子的识别和对双向启动子的识别。本文分别针对选择性启动子和双向启动子的特征设计出区域表达模式,利用粒子群算法优化表达模式的参数,在基因中识别出启动子区域的位置。其中,选择性启动子的识别主要通过启动子区域与基因间区域的相对值来判断区域类型;双向启动子则是在建立四个模型后,根据模型判别准则在其中选择出最适合的模型,最终得到区域类型。在得到识别结果后,利用DBTSS数据库中已知的选择性启动子位置信息来验证识别的选择性启动子区域,并模拟双向启动子区域可能出现的不同分布峰形来验证识别方法的有效性。预测的选择性启动子区域可以为基因组特征分析提供支持,包括对选择性启动子区域与基因EST及mRNA片段相关性进行分析,对选择性启动子区域进化保守性的分析等。双向启动子区域的识别可以进一步探索双向基因对转录起始位点距离的进化保守性,双向启动子区域对下游两个基因的转录调控机制以及双向启动子区域与CpG岛的关联。