论文部分内容阅读
探讨了基于TD (TemporalDifference)预测强化学习智能博弈程序的设计原理 ,并基于该原理结合BP神经网络设计并实现了一个能自学习的五子棋博弈程序。实验证明 ,该方法既能避免设计复杂的静态评估函数 ,又能很好地解决传统的智能博弈程序中存储空间大和运行速度慢等问题 ,同时克服了传统方法难以在模糊、不完整或冗余 ,甚至矛盾的数据基础上进行问题求解的缺点。