论文部分内容阅读
在脱氧核糖核酸的调控区域存在着一些对基因表达,转录,翻译具有特殊生物意义的基因段,即转录基因结合位点(TFBSs),它们具有保守性,重现性,并且相对较短.我们称为:motif。从而我们可将模体发现问题描述为:从一组相关DNA序列中找出具有某种特定功能的未知序列片段。它主要有3大难点:(1)由于突变,交叉,删除基因段的存在,motif出现形式不确定。(2)motif长度不确定。(3)某条序列中存在motif的条数不确定。通过我们的研究,构建了基于细菌群搜寻优化(BFO)的模体发现算法。基本建立了一种高效的模体发现模型,并对其进行了初步的完善。首先,将原BFO算法与Tabu Search(禁忌搜索)算法相整合成TS-BFO,通过建立self-control multi-length chemotactic step mechanism(自控趋向步调整机制)和引入Rao metric(Rao测度)来解决模体发现问题。即在趋向步阶段,利用搜索禁忌表,不再或有选择地搜索一些点。对禁忌表中的优秀结果的邻居进行彻底的,仔细的搜索。增加优秀个体的趋向步搜索次数。此方法优点:(1)可避免搜索进入循环状态。(2)不断增大搜索空间,避免陷入极值。(3)避免重复解,保持了种群的多样性。对于自控趋向步调整机制来说,新的自控趋向步调整机制,每个个体自动确定趋向步长,随迭代次数变化,依照准则(对某一个个体而言):准则一:初始设置较大趋向步长。准则二:如果K步未搜索到更优解,缩小其趋向步长。准则三:每代必设置一定比例的大趋向步搜索。另外我们还设置大趋向步随机检测个体,如新产生的个体的适应度值大于特赦准则,则搜索禁忌表且进行相应处理。其次,我们构建了一种混合初始种群,引入了新的操作算子(例如移位操作),使新算法达到更高的效果。最后,在之前算法的基础上,将DE/EDA算子引入,代替原BFO算法中的Reproduction环节,提高算法的搜索能力。在原BFO算法中,在Reproduction环节只是将优秀的半数种群复制成新的个体,并没有更优的个体产生,影响收敛速度的同时产生重复解使算法易陷入极值。我们引入DE/EDA算子代替原来方法,DE(Differential Evolution)通过从当前优秀种群个体中提取距离和方向信息,加入随机差分保持多样性来产生新的个体。再与我们所熟知的分布估计算法相结合,达到了很好的效果。从实验结果我们发现:将TS与BFO结合解决实际问题,实验结果表明引进禁忌搜索后的TSBFOMD算法的对于解决模体发现问题的有效性,在理想的时间内达到了满意的效果,所以她可以作为一种提取模体的方法。而对于TS-BF-DE/EDA算法,它的的搜索能力优于原始BFO算法和原始DE/EDA算法,可以作为一种全新的优化算法予以应用。在以后我们会并不断地在更多的实验中发现其优缺点并加以改正。对于Motif的长度自动确定;算法参数的确定问题;更多生物知识的引入等扩展领域,我们也进行了一些设想。