论文部分内容阅读
从行为心理学发展而来,介于监督学习和非监督学习的强化学习算法,目前是机器学习研究领域的热点,越来越受到关注。现有的强化学习算法如Sarsa学习算法、Q学习算法等需要大量的存储空间来存储已有的知识,在大规模或连续状态空间问题上,可能会引发“维数灾难”;而基于非线性值函数逼近的的时间差分学习TD(λ)算法,易陷入局部极值,并且算法是发散的。考虑到智能计算算法的全局寻优能力、自适应性等特点,本文分别使用遗传算法和免疫耐受机制对强化学习算法进行优化。 结合遗传算法的全局搜索能力,本文提出了一种基于遗传算法的强化学习算法,将强化学习算法中的权值整体看成是种群中的个体,仿生物“自然选择”机理,对种群进行择优迭代,执行选择、交叉、变异等操作。其中,选择操作是通过轮盘赌方法,采用精英保留策略,对种群中的个体以一定的概率随机性进行较优迭代;交叉是按照单点交叉,对随机交叉点的两个个体进行两两交互;变异是对个体的随机基因位进行高斯变异。同时,在理论上进行了算法分析,在仿真实验上对新旧算法进行了对比,均表明新算法具有更好的性能。 为了记忆对环境的学习,从而在遇到相似环境时加快学习速度,本文接着提出了一种基于免疫耐受机制的强化学习算法。该算法以TD(λ)为前提,在免疫耐受机制的基础上,对权值进行耐受调整。在学习中,用权值控制基于函数逼近的状态值;当误差大于一定阈值时,使用免疫耐受对权值进行优化,否则直接根据系统状态选择最优策略。经过性能分析和仿真实验,结果表明新算法能以更小的误差、更快地进行全局搜索,并且算法具有更强的多样性,算法性能受学习因子影响更小。 最后,本文将改进后的强化学习算法应用于机器人路径规划。建立栅格地图,用0和1表示地图信息,计算路径选择后的避障奖赏和趋近目标奖赏,反馈优化算法。在仿真实验的基础上,对算法应用进行了详细说明,并与现有算法的机器人路径规划应用进行了对比,结果表明改进后的算法具有更好的效果。