论文部分内容阅读
计算机方法识别转录因子结合位点(transcription factor binding sites,TFBS,也称motif,、模式)是目前生物信息学的一个很有吸引性和挑战性的课题。准确的转录因子结合位点的预测和识别方法可以为生物学实验研究提供重要的参考信息,对促进调控网络的研究也具有重要的意义。本文主要对真核基因的转录因子结合位点进行了预测和识别研究,提出了三个改进算法,并结合酵母全基因组的核小体占位分布和转录因子结合位点的数据进行了分析研究。
由于吉布斯采样(gibbs sampling)的敏感性和快速收敛特性,该方法是目前序列模式识别的一个很有效的启发式方法。但这种方法不是采用穷尽搜索的方式,而是启发式地去搜索一个数学上的最优对齐,容易陷入一个非全局最优的局部最大值。为了解决这个问题,本文提出了一个改进的吉布斯采样算法MPWGMS(multiple position weight matrices gibbs motif sampling)。在这个算法中,主要提出采用多个motifs同时采样和更新,引入多个采样列的位置权重矩阵的修正方案,更大程度上寻找全局最大值。
为了提高识别酵母基因序列的真实的转录因子结合位点的性能,在上一个改进的吉布斯采样算法MPWGMS的基础上,结合生物学的先验知识,提出了一个酵母基因转录因子结合位点的识别算法YGMS(yeast gibbs motif sampling)。在YGMS中,我们结合酵母基因序列的先验知识,在传统的信息含量计分函数基础上增加相对于背景模型的一阶模式模型的对数似然计分函数,并设定采样位点的计分阈值选择更优的序列采样初始位点,代替了传统的完全随机选择方式。
为解决(15,4)-模式(即模式的长度为15,每个序列的模式与共有的模式可能有最多4个错配的核苷酸)的问题,我们提出了一个基于神经网络的解决方法IMTM(identification of motifs using two models)。IMTM通过对样本的序列进行变异操作,并和网络中的其它序列片段进行搜索和计算,搜索符合使变异了的模式和输入样本之间汉明距离最小化的模式序列,从而达到识别这类挑战性问题的模式。
结合酵母全基因组的表达调控、核小体占位情况以及转录因子的结合位点和亲和力等数据,我们进行了系列的分析和研究,发现转录因子结合亲和力和对应的结合位点的核小体占位率具有明显的相关性,核小体占位率越高,结合位点的转录因子结合亲和力就越弱,反之,核小体占位率越低,结合位点的转录因子结合亲和力就越强,也则表明核小体占位与转录因子结合是竞争性存在。分析也发现,启动子转录起始点上游序列的较低可弯曲性和显著高的染色质重塑复合体的占位率可能妨碍核小体的组装,因此有利于转录因子结合缺失核小体的结合位点。另外,核小体的分布背景影响转录因子与DNA序列的转录调控和基因表达,包括基因活性、基因开放率和基因表达噪音等。这将为我们进一步更精确地研究转录因子调控研究提供了一个方向。