论文部分内容阅读
随着社会经济的发展与国际形势的变化,世界范围内的人员交流越来越频繁,人群密集场所的安全问题越来越突出。为了对人群密集场所中人群的异常行为进行早期预警并据此制定合理的安保措施与应急处理预案,需要对行人的行为机制和行人的群体行为特性进行研究,该研究具有重要的经济与社会意义。而且由2-5个行人所组成的小规模组群体在人群组成中所占的比例达到70%,因此通过对小规模组人群的研究,可以更准确的对人群的行为进行刻画。人群仿真除了对行为生成方法进行研究以外,还需要行人在不同情况下能够进行合理的决策,现有的智能体决策模型广泛使用行为树进行决策,但是行为树的设计存在调试复杂,无法自动化设计,开发效率低等不足。本文在此背景下,研究人员对象的决策模型和组行为的生成方法。本文引入具有自学习机制的多步Q-learning来改进行为树。针对多步Q-learning的不足,本文使用模拟退火策略对多步Q-learning的动作选择策略进行改进,减少对非最优动作选择的概率;本文使用动态规划策略对Q值函数进行逆序更新,加快收敛速度。然后将改进的多步Q-learning算法引入到行为树中,提出了基于改进多步Q-learning的行为树决策模型,使得智能体能够自动的调整行为树,从而产生合适的行为响应。接下来研究了多步Q-learning中n值对算法收敛速度的影响,并确定了最佳n值。将本文算法和普通Q-learning以及SAQ算法进行了对比实验,证明了本文算法收敛速度是最快的。最后设计了警察和异常行为人的行为树,在重要人物视察城市的事件背景下进行对比实验,证明了本文自动设计的行为树比手动构建的行为树更加合理。针对人群的组行为生成方法,本文基于线性插值方法建立了小组队形的数学模型,并提出一种小组队形的动态调整模型,该模型中使用射线探测技术依据不同空间大小来确定小组的队形。本文中利用两级转向系统实现行人在虚拟环境中的运动,第一级系统是组智能体,依据本文改进PRM寻路算法进行全局路径规划,并对PRM算法的节点分布进行了优化且对路径进行了平滑处理。第二级系统是行人智能体,使用A*算法进行局部路径规划,最后设计了对比实验,实验结果表明本文提出的决策模型与人群组行为生成方法能有效提高人群仿真的效果,对基于仿真的公共安全研究具有较好的参考价值。