基于模型知识的大空间强化学习算法的研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wangshucai123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。Q学习算法是目前主流的强化学习算法之一,但Q学习本身存在一些问题。首先,Q学习算法没有充分利用学习过程中的经验知识,致使算法收敛速度较慢;其次,Q学习算法不能适用于连续状态空间和动作空间的学习,虽然模糊强化学习算法可以在一定程度上解决此问题,但是由于模糊隶属函数的选取是建立在主观经验的基础上的,缺乏对求解问题的真实描述。本文针对RoboCup中的具体问题,结合其它学习方法对Q学习算法进行了一些扩充和改进,使其适用于复杂环境下的Agent智能决策。本文的主要研究工作如下:(1)在Q学习算法的基础上,通过对agent所处环境的学习,使其有效利用先前学习到的模型知识重新指导Q学习,减小搜索空间,从而节约时间,提高学习的收敛速度。并将这个算法应用于RoboCup的射门问题中,实现了射门问题的优化。(2)在模糊Q学习基础上,在模糊隶属函数的选择时利用遗传算法进行选择,使模糊划分更准确有效,实验结合RoboCup中的踢球问题,并和基本的模糊Q学习算法进行了比较,实验结果证明了算法的有效性。
其他文献
基于字幕的视频检索是基于内容的视频检索的重要方面,利用新闻字幕进行检索可以大大降低视频检索的复杂度,提高视频检索的速度和准确性,对基于字幕的视频检索技术的研究具有
面对高维、非线性、非结构化的数据,如何从这些数据中找到蕴藏的规律是目前迫切需要解决的问题。流形学习是一种面向这样高维非线性数据的降维方法,它通过找到高维空间中的低
P2P网络提供了一种开放的、自由进行文件交换和资源共享的环境,在P2P技术的推动下,互联网的存储模式将由现在的“中心化”模式向“边缘化”模式发展。同时,P2P网络的节点来自
汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。随着科学技术的不断进步和信息时代的不断发展,汉字在世界上已经有越来越多的使用人口,因此计算机自动汉字
在Web系统设计中,随着业务逻辑的越来越复杂,如何提高Web系统的执行效率、可复用性、可扩展性和可维护性,降低构建和维护的成本,一直是业界普遍关注的焦点。软件架构的建立是
制动器是汽车、摩托车等机动车辆不可或缺的重要部件,在车辆的减速、停车和泊车过程中起着重要的作用。它能够根据汽车、摩托车的行驶要求,强制汽车减速和停车,确保汽车安全停放,不至于在外力作用下滑移。制动器的质量直接影响到整车的质量以及驾驶员和路人的安全,因此制动器生产厂家十分关注改进制动器的生产和检测设备。但传统的制动器性能检测设备都只是将传感器等机电设备与计算机相结合,是以数值计算和信号处理为主要工作
机器学习是人工智能和计算机科学研究中的一个永恒课题。近些年,越来越多的研究者开始将数学的方法应用到机器学习领域,为机器学习的研究开辟了新的方法。李群机器学习从一提
随着信息技术的飞速发展和计算机应用水平的不断提高,面向医疗的新一代信息系统已由过去单纯的医院信息系统(Hospital Information System HIS)、放射信息系统(Radiological
新的网络协议的不断涌现以及网络流量成指数倍的增长,使得网络流量监测十分困难。有些Internet应用使用若干个端口或为其子事务动态分配端口号,而有些Internet应用程序使用相
无线传感器网络作为新兴的网络测控技术,是能够自主实现数据采集、融合和传输应用的智能网络应用系统。无线传感器网络使逻辑上的信息世界与真实的物理世界紧密结合,从而真正