论文部分内容阅读
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题.提出一种新的在大文本库中快速查找近似匹配的无损过滤算法.为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引.为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准.实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能.结果显示新算法适