论文部分内容阅读
将寻求两条生物序列最优比对的过程视为Agent自主学习寻找最优策略的过程。用状态集合表示序列中的碱基和为了获得最佳排列插入序列的空格,为Agent每一次行动打分作为立即收益,合计每一种策略的所有立即收益作为该策略的预期收益,获得最大预期收益的策略就是最优策略,与之对应的Agent遍历的状态集合就是最佳排列。给出了时间复杂度和空间复杂度的公式证明,通过实验证明该方法有效地降低了时间复杂度和空间复杂度(O(kh))。