基于试错学习的强化学习算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:a8586023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从行为心理学发展而来,介于监督学习和非监督学习的强化学习算法,目前是机器学习研究领域的热点,越来越受到关注。现有的强化学习算法如Sarsa学习算法、Q学习算法等需要大量的存储空间来存储已有的知识,在大规模或连续状态空间问题上,可能会引发“维数灾难”;而基于非线性值函数逼近的的时间差分学习TD(λ)算法,易陷入局部极值,并且算法是发散的。考虑到智能计算算法的全局寻优能力、自适应性等特点,本文分别使用遗传算法和免疫耐受机制对强化学习算法进行优化。  结合遗传算法的全局搜索能力,本文提出了一种基于遗传算法的强化学习算法,将强化学习算法中的权值整体看成是种群中的个体,仿生物“自然选择”机理,对种群进行择优迭代,执行选择、交叉、变异等操作。其中,选择操作是通过轮盘赌方法,采用精英保留策略,对种群中的个体以一定的概率随机性进行较优迭代;交叉是按照单点交叉,对随机交叉点的两个个体进行两两交互;变异是对个体的随机基因位进行高斯变异。同时,在理论上进行了算法分析,在仿真实验上对新旧算法进行了对比,均表明新算法具有更好的性能。  为了记忆对环境的学习,从而在遇到相似环境时加快学习速度,本文接着提出了一种基于免疫耐受机制的强化学习算法。该算法以TD(λ)为前提,在免疫耐受机制的基础上,对权值进行耐受调整。在学习中,用权值控制基于函数逼近的状态值;当误差大于一定阈值时,使用免疫耐受对权值进行优化,否则直接根据系统状态选择最优策略。经过性能分析和仿真实验,结果表明新算法能以更小的误差、更快地进行全局搜索,并且算法具有更强的多样性,算法性能受学习因子影响更小。  最后,本文将改进后的强化学习算法应用于机器人路径规划。建立栅格地图,用0和1表示地图信息,计算路径选择后的避障奖赏和趋近目标奖赏,反馈优化算法。在仿真实验的基础上,对算法应用进行了详细说明,并与现有算法的机器人路径规划应用进行了对比,结果表明改进后的算法具有更好的效果。
其他文献
随着互联网的不断发展,现有网络日益暴露出控制手段薄弱以及信任缺失等缺点,构建一种具备可控性以及可信性的下一代网络成为研究者的共识。作为互联网的基石,路由机制承担着在多
图像数据作为互联网数据中重要的组成部分,随着互联网信息时代的快速发展以及拍照智能手机的大范围普及,在以惊人的速度不断地积累。相比文本数据,图像数据的优势在于提供了
NPR(非真实感绘制)是把绘画艺术和计算机技术相结合研究的领域,它专注于抽象与加工真实的场景,使人们能够获得更深刻、更重要、更直观的印象,因此已在教育、艺术等领域有了广泛
随着社会发展,环境保护刻不容缓。环境保护智能化、网络化是未来环境保护工作的重点。环保信息化势在必行,而物联网的迅速发展,为环境保护提供了新技术、新方法和新思路。基于物
近年来,云计算作为一种新的高性能计算模式成为广大研究学者的研究热点,各大公司也纷纷推出自己的云平台,如加利福尼亚大学研究的Eucalyptus, Apache基金会的Hadoop平台、以
图像分割是数字图像处理的重要研究方向,许许多多的图像需要对其进行图像分割,提取目标图像之后才能进行下一步的处理与信息提取。图像分割的方法也得到了如火如荼的发展。但是
近年来,随着互联网的发展和企业信息化进程的推进,国内各主要钢厂投入了大量的人力物力都先后建立起数量众多的信息系统。这些信息系统组成了一个信息库,通常信息库由很多信息源
无线传感器网络具有节点分布稠密、能量有限、节点计算能力和存储空间有限、容易遭受安全攻击等特点。面临的威胁不单是外部攻击者对网络发起的攻击,网络内部节点也有可能被捕
近年来,随着计算机的普及和应用技术的发展,人们获取数据的能力得到了极大提高。数据流作为数据挖掘的一种新的研究内容,已经出现在各种应用领域。区别于传统的存储在磁盘上的静
集成学习系统是近年来机器学习和模式识别领域中的研究热点。由于其在处理维数高、样本少和数据结构复杂的这类问题中拥有独特的优势,最近已有越来越多针对基因微阵列数据的研