论文部分内容阅读
同源搜索在基因功能预测、蛋白质结构预测和物种亲缘关系判断中具有重要的意义,在同源搜索比对程序中使用间隔种子有利于准确高效地找到生物序列间的同源比对。本文主要研究同源搜索中使用的比对模型、种子结构对间隔种子敏感性的影响以及计算间隔种子敏感性的算法。
本文首先对同源搜索中已有的序列比对模型进行了比较和总结。理论分析和实验结果表明,PH模型可以为一般比对区域建模;对于编码区域,在隐马尔科夫模型下间隔种子的预测敏感性与其真实敏感性最接近,并且能够找到敏感性很高的优化种子。
随后,分析了PH模型下优化间隔种子的结构特性并给出减少候选种子集合的新的过滤规则,结合已有的过滤规则提出了一个选取侯选种子的SO算法。实验结果表明,使用SO算法可以在保证找到敏感性很高的间隔种子的前提下大大减小间隔种子的搜索空间。
最后,研究了计算间隔种子敏感性的算法,提出了一种在隐马尔科夫模型下计算间隔种子敏感性的递归算法。该算法能够快速找到对真实同源比对敏感性很高的间隔种子。