论文部分内容阅读
转录因子结合位点是与转录因子结合的DNA片断,负责启动基因的转录过程和控制基因的转录效率。由于转录调控是基因表达调控的关键环节,因此转录因子结合位点的预测和识别对于生物调控网络的研究具有重要意义。本文在研究模体发现算法的基础之上,发现了植入模体发现问题与最大团问题之间的相关性,将植入模体发现问题形式化为在无向图中求解最大团的问题,并且提出了一种利用最大团解决植入模体发现问题的算法。基于缩小解空间规模和加速最大团收敛速度的目的,本文提出了一种基于最大团求精的随机投影植入模体发现算法。该算法通过随机投影策略产生若干合格桶,并对所有的合格桶施加一个基于回溯法的最大团扩充求精过程,可以得到一组候选模体,最终将能够使目标函数值最大的模体作为最优解输出。本文解析并给出了随机投影参数的选择对基于最大团求精的随机投影植入模体发现算法的影响。使用一致序列得分和相对熵两种测度对候选模体进行筛选,并通过性能系数和互相关系数等评价测度对算法的最优解质量进行了评价。本文通过模拟数据对算法的有效性进行了验证,并且将所提出的算法应用于不同物种生物数据的转录因子结合位点识别,尤其是酿酒酵母的多组转录因子结合位点的预测能够达到80%以上的识别率。