论文部分内容阅读
近年来,无人机被广泛地应用于灾后救援,执行救援任务。在不确定环境中,无人机规划高效合理的救援路径十分重要,不仅有助于减少飞行时间、增加无人机利用率,而且可以提高救援效率。本文通过研究无人机在不确定环境下救援这一实际问题,分析其救援动态过程,构建了基于模糊聚类优先级划分的无人机部分可观察马尔科夫决策过程(POMDP)救援路径规划模型,引入基于点的近似算法?最优策略可达空间的连续近似法(SARSOP)对POMDP模型进行求解,并进行仿真实验以验证提出的优化模型和算法。本文主要研究内容如下:首先,本文针对无人机现状、救援无人机路径优化问题现状进行了深入研究,发现目前关于救援问题建模的研究中对真实场景的模拟并不完善。考虑到真实救援中对系统的所处环境的不确定性和执行动作转移的不确定性,本文引入强化学习领域中的马尔科夫决策过程(MDP)和部分可观察马尔科夫决策过程(POMDP)理论来解决不确定性问题,对MDP和POMDP理论作出系统性的总结,为面向无人机救援的路径规划问题提供了理论依据。其次,在对POMDP理论分析的基础上,将救援空间映射到二维平面,基于POMDP模型要素,建立了无人机救援路径规划模型。本文基于区域救援需求指标,采用模糊聚类的方法对救援区域进行分类,并通过计算平均效用值来衡量每一类的优先级程度。根据实际问题,将救援目标区域划分为单元栅格并建立状态要素,选择常规8个方向作为动作要素,将是否观察到受害者作为观察要素,依据实际情况设定转移概率函数和观察函数,依据状态的优先级程度设定奖赏函数,构建以POMDP模型为依据的无人机救援的路径优化模型。然后,针对基于优先级划分的无人机救援模型,本文引入一种基于点的近似算法——最优策略可达空间的连续近似法(SARSOP)的方法进行求解,该算法分为3个步骤:搜索,更新和裁剪。通过采用选择性深度搜索的方式采样,获取信念空间一组有代表性的点作为信念空间的近似表示,即最优可达信念空间R*(b0)(Optimally Reachable Belief Space),然后利用backup操作更新信念状态及a向量集,并裁剪掉无效向量提高计算策略的效率。最后,基于建立的无人机救援POMDP模型和SARSOP算法进行仿真实验。仿真实验1主要展示了无人机对自我状态学习认知的过程,从不确定自身环境状态到最终实现目的的动态变化过程。仿真实验2主要是以上帝视角展示了POMDP策略、贪婪策略及固定策略的每一步的状态变化,验证了POMDP策略是最快到达优先级高的状态的策略。仿真实验3种将实验分为3种场景(乐观场景,混合场景及悲观场景),以找到受害者的时间为衡量指标,对比POMDP策略和贪婪策略,POMDP策略总是能够较快的找到不同场景中的受害者。仿真实验4作为延展实验,目的是使无人机自主避障且精准到达目标点(精准投放),将POMDP策略和基于势能场的策略进行对比,验证POMDP策略受到的限制更小。实验结果验证了本文提出的POMDP模型能够在不确定的环境中动态干预每一步路径规划,同时验证了SARSOP算法解决实际问题时的有效性,在无人机救援路径优化领域具有一定现实价值。