最小二乘支持向量机在强化学习系统中的应用

来源 :系统仿真学报 | 被引量 : 0次 | 上传用户:jiwei5520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。 The Q learning under continuous state space is constructed as the regression estimation problem of least square support vector machine, and the mapping of system state-action to Q-value function is achieved by the good generalization and nonlinear approximation performance of LS-SVM . In order to ensure the computing speed and meet the need of online learning of Q learning system, the training samples of least square support vector machine are windowed, that is to obtain the sample data while learning the Q learning system and train the least square support vector machine . Simulation results show that this method has high learning efficiency and can effectively solve the problem of generalized continuous state space of reinforcement learning system.
其他文献
今年1月20日,威远县严陵镇城市花园广场彩旗招展,人头攒动,威远县新型农村社会养老保险待遇首次发放仪式在此隆重举行。有300余名老人现场收到了新农保基础养老金存折,政府每
谐振式传感器的谐振频率和Q值可以通过其频率特性计算得到,因此需要有一种通用的测试平台来测量各种不同谐振式传感器的频率特性。本文描述了一种谐振式传感器频率特性测试平台,并提出了一种采用间歇激励方法测试谐振式传感器谐振频率的新方法,采用线性调频信号激励谐振式传感器,传感器自由振动状态下的振动频率即是传感器的谐振频率;测得传感器自由振动状态下的振动频率,即可得到谐振式传感器的谐振频率。
为给电荷衰减时间测试仪器提供溯源,研制了一套电荷衰减试验仪检定装置.该装置主要由双指数形标准衰减电压源、标准脉冲分压器和计算机数据采集处理系统等三个重要部分组成,
随着下半年供应量的井喷,将使比较大范围的促销成为可能。在供应增加和促销增多的情况下,下半年的成交量将远超上半年。据最新统计,截至2011年6月22日,广州全市十区二县市预
在工作中,经常有人询问:——别人都有社保,我为什么不能参保?——听说有机关事业社保,有企业职工社保,有灵活就业人员社保,还有农村社保,我到底该参加哪种保险?——我们单位
中国工程物理研究院太赫兹自由电子激光装置CTFEL (China Academy of Engineering Physics Terahertz Free Electron Laser,CAEP THz FEL)是国内首台可为用户提供高功率和宽
针对常数模和判决引导双模式盲均衡算法切换时机选择困难问题,提出了一种并联滤波的双模式融合盲均衡算法。算法以并联滤波器作为盲均衡器,两路子滤波器分别以常数模算法准则
束流垃圾桶的材料、结构、尺寸的正确设计对于确保高能环形对撞机(Circular Electron Positron Collider,CEPC)直线加速器的安全运行有重要意义.采用蒙特卡罗程序FLUKA,研究
一体化正电子发射断层成像(Positron Emission Tomography,PET)/磁共振成像(Magnetic Resonance Imaging,MRI)是将PET和MRI有机整合成一体的新型多模态医学影像系统,结合了MRI系统的软组织高分辨率与多参数多功能成像特性和PET系统的放射性示踪剂代谢高灵敏度以及数据定量化特性,常用于脑神经疾病的诊断。在PET/MRI脑部扫描中,脑区分割对
摘 要:伴随着社会经济的飞速发展与科学技术水平的不断提高,当今社会已经进入到“互联网+”的全新时代。在“互联网+”的大背景下,先进的互联网技术便是最重要的代表之一,在现代人的工作与生活中发挥着不可替代的重要作用。纵观我国当前大学英语教学的现状,不难发现互联网技术已经成功应用到实际教学当中,为大学英语带来了越来越多的生机与活力。互联网不仅仅为英语教师提供了更加丰富且具有创新性的教学资源,更在潜移默化