论文部分内容阅读
基因转录调控一直是生物信息学研究的一个重要内容,转录因子结合位点和启动子的识别是研究基因转录调控的重要环节,是构建基因调控网络的一个核心问题。本文基于已知的转录因子结合位点和启动子序列数据,从序列信息出发,提出了整合位点保守型参量和位置权重矩阵预测转录因子结合位点的位置权重矩阵打分函数方法以及联合位置权重矩阵和离散增量预测启动子的支持向量机方法。
基于转录因子结合位点序列通常比较短且保守,引入矩阵模型描述转录因子结合位点的特性,同时依据转录因子结合位点的位点保守性各不相同,将碱基保守性参数引入矩阵模型,从而提出预测转录因子结合位点的位置权重打分函数算法(PWMSA)。
首先将四种碱基随机出现的频率作为背景频率,以单碱基位点保守性参量结合单碱基位置权重矩阵的PWMSA算法对22种转录因子结合位点进行预测,总体Self-consistency检验为 87.59%,10-foldcross-validation检验为85.48%。
然后考虑到基因序列中的四种碱基并非随机出现,以四种碱基实际出现的频率作为背景频率,用PWMSA算法对酵母九种转录因子结合位点进行预测,Self-consistency检验预测成功率达83.14%,10-foldcross-validation检验预测成功率为77.51%。同时,引进两种最新的评价指标,将PWMSA算法与现有的10种预测转录因子结合位点的软件进行比较,结果表明PWMSA算法的评价指标均高于现有的算法,在核苷酸和结合位点片段两种评价水平上,预测成功率分别高出其他算法4%,7%个百分点。
考虑到转录因子结合位点之间存在碱基相互作用共同贡献与蛋白的亲和力,利用已知的9种酵母转录因子结合位点序列构建近邻核苷酸二联体位置权重矩阵,计算位点近邻二联体核苷酸保守性参量,使用PWMSA算法对9种酵母转录因子结合位点进行预测,Self-consistency检验和10-fold cross-validation检验预测成功率分别达到88.04%,81.10%,明显高于单碱基位置权重矩阵的结果。
基于启动子序列的内容特征和信号特征与非启动子序列的区别,利用离散量方法提取启动子序列的内容特征;构建核心启动子元件的位置权重矩阵,使用位置权重矩阵提取启动子序列的信号特征,最后提取启动子和非启动子序列碱基组份特征。构建了基于综合启动子序列的内容特征和信号特征预测启动子序列的支持向量机分类器,并对人类Pol Ⅱ启动子进行预测,10-fold cross-validation检验为95.70%,对另外选取的独立测试集预测成功率为98.30%,同时与现有的7种预测启动子的软件和算法进行比较,我们的算法预测成功率敏感性为97.00%,特异性为97.98%,结果明显优于现有的预测算法和软件。