论文部分内容阅读
设计混合智能控制结构,该结构引入强化学习和神经网络,提出基于BP神经网络的Q学习算法,优化动作的选取,解决传统Q学习中Q表占用内存空间过大的问题,增强系统的泛化能力。将其应用到Predator-prey模型中。实验结果表明,系统无需每次从全部动作中选择,从而大大缩小了状态-动作对的数量,节省计算时间,为智能体最优策略的选择提供更大的可能性。