论文部分内容阅读
为了实现基于Q-Learning的无人船在未知环境下的智能避碰功能,利用马尔科夫决策方法(MDP)建立一个智能避碰决策模型,采用玻尔兹曼分布为随机动作策略,通过值函数求解决策模型中的最优策略,使无人驾驶船舶在三种不同状态下得到行为映射中最大的回报。最后,进行了相应的仿真实验,其结果表明,无人船于未知环境航行过程中,该智能避碰决策方法能在成功避碰的前提下规划出一条最优路径。