基于支持向量技术的Agent强化学习研究与应用

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zengbiao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是基于统计学习理论的一种机器学习方法,它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术,能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列,因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题,一方面通过支持向量回归方法来解决RoboCup中球员截球问题,一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题,使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下:(1)针对RoboCup中截球问题引入了支持向量回归方法,它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果,对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较,结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。(2)针对RoboCup中强化学习的连续状态表示问题,提出一种新的基于SVM分类的强化学习系统,其基本思想是通过SVM良好的泛化性能,先将整个状态空间划分为若干个区间以提供状态的可区分度,然后在此基础上建立状态到动作的映射关系。实验表明,该方法不但能学习到最优策略,并能通过SVM从有限小样本空间泛化到整个状态空间,从而有效解决连续状态空间的表示问题。
其他文献
随着网络应用的不断发展,网管系统作为与操作系统、数据库系统并列的三大基础软件平台,其重要性不言而喻。中小型企业网络规模的不断扩大,必将给网管系统带来巨大需求。通过近几
随着Internet和通信技术的发展,通信网络带宽和处理能力得以提高,使得网络能提供更多的多媒体业务,其中许多业务都要求网络具有多播能力,例如音频/视频会议、交互式仿真、多人游
学位
高性能计算机正广泛应用于国家安全与经济社会各个领域,例如核物理研究、天气预报、石油勘探,生物制药,动画制作等与社会和个人紧密相关的产业与方向,极大推动了科技水平和经
银行非现场稽核是在现代信息处理和传递方式下迅速发展起来的一种审计监督方式。银行非现场稽核系统是一个面向分析的系统,它需要实现银行海量交易数据和历史数据的存储、查询
数据仓库和OLAP是90年代初提出的概念,到90年代中期已经形成潮流。在美国,数据仓库已成为仅次于Internet之后的又一技术热点,以数据仓库和OLAP相结合建立的辅助决策支持系统是决
随着大数据时代的来临,科学研究、工业应用和网络服务等领域的数据规模正爆炸式增长。当前,超级计算机在科学研究和国民经济建设中发挥着非常重要的作用,应用领域十分广泛,具
计算机互联网络Internet已成为世界上最大的信息源,任何一个Internet用户都可以在网上查询他想要的信息。随着网络的飞速发展,P2P网络在文件共享、资源搜索方面得到广泛应用
随着计算机技术、网络技术和分布式技术的发展,计算机用户正从单用户工作模式向多用户协同工作方向发展。计算机支持的协同设计(Computer SupportedCooperative Design)就是
随着互联网快速发展,网络应用层出不穷,网络承载的流量及业务越来越多,对网络的可靠性提出了巨大挑战。但网络故障时有发生,严重影响了网络的正常运行,给用户及网络服务商带