论文部分内容阅读
鉴于六子棋的TD学习应用几乎处于空白,报告了所取得的阶段性成果提出了采用即时差分(TD,Temporal Difference)学习算法学习六子棋估值函数权值,且实现了调整过程的自动化避免了传统方法在调整估值函数权值上的重要缺陷,包括必须人工干预,其过程单调、漫长、易出错等经过10020盘自学习训练,自学习程序TDLConn6的胜率提高了8%左右,收到了良好的效果.