论文部分内容阅读
基因的转录调控是基因调控机制中最重要的组成部分。真核生物基因组规模远远大于原核生物基因组,并具有复杂的结构和调控机制,控制着基因的表达过程。所以对于一个基因组来说,我们不仅要知道其中的每一个基因,还希望知道这些基因是怎样被调控的,在什么情况下表达,如何表达,什么时候表达以及基因间的关系等。本文主要工作是提取基因的转录调控模体,并根据这些调控模体分析它们的表达规律。 本文的样本序列是人管家基因和30个组织特异性基因序列,采取基因上游1000bp区域作为启动子序列。由于Van Helden认为模体在某条基因序列上出现服从泊松分布,所以本文通过泊松分布来度量每个模体出现的概率,再应用主成分分析提取出现概率大于95%的一些“主要模体”作为过表达模体。泊松分布和主成分分析两种方法的综合使用,提取出的过表达模体与TRANSFAC数据库的匹配率在87.50%~95.98%之内,把这些过表达模体作为潜在的转录因子结合位点。并对这些调控元件的特征(AT_rich模体、CG_rich模体和AT/CG_lack模体)进行分析,为下一步各个组织的模体使用的差异性分析打下基础。 其次,通过数据预处理消除过表达模体出现的概率值比较小的影响,通过Wilcoxon秩和检验得出各个组织之间是否具有显著性差异,再用与之有显著性差异的组织的过表达模体进行分析。用超几何分布确定出现次数比较多的模体作为这个组织的特有模体。并分析特有模体的特征是偏向于AT_rich模体或CG_rich模体,以及特有模体在启动子序列中的位置特征。把特有模体与TRANSFAC数据库匹配,得到控制组织特异性基因的特异性表达的转录因子。