【摘 要】
:
针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态
论文部分内容阅读
针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态空间泛化中易出现的"维数灾"问题.引入滚动时间窗机制实现支持向量机的在线学习:系统实时检测得到的新数据若不包含新信息,则保持学习的样本集不变;若包含新信息,则滚动时间窗,更新样本集,从而更新支持向量机的回归模型,并对时间窗内的数据分配不同的权值以充分利用数据的信息.倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制.
其他文献
目的 :研究C57BL/ 6小鼠肺微小血管内皮细胞血栓调节蛋白 (TM)与因子Ⅷ相关抗原 (vWf)的分布及博莱霉素 (BLM)致肺纤维化过程中 ,血管内皮细胞亚型的转变。方法 :采用双重免
<正>一前言戚继光故居,位于蓬莱市区的中部,是明末著名民族英雄戚继光少年和老年的居住地,故居因年久早已不存,现故居遗址南侧存有建于明嘉靖四十四年(1565),皇帝赐建的两座
目的观察运用双歧杆菌三联活菌散联合三联疗法治疗幽门螺杆菌感染慢性胃炎的临床疗效。方法选取2016年4月至2018年4月在该院接受治疗的66例幽门螺杆菌感染慢性胃炎患者作为研
目的:了解广西不同高等医学院校医学生基层择业思想及影响因素状况;方法:采取分层抽样的方法抽取三所高等医学院校临床医学专业本科生1600名进行调查比较分析;结果:不同高等
本文探索了专业评茶师对品质感知认识的心理学基础及其一致性,从而肯定感官评茶具有较高的准确性和科学性。研究了我国和其他主要茶叶产销国家审评项目、因子的分类情况,提出
了解织构特性对脱硫剂脱硫性能的影响,对开发高效稳定的高温煤气脱硫剂至关重要,通过改变实验条件,合成了不同粒径的聚苯乙烯(PS)微球,以此为造孔剂,以钢厂赤泥为活性组分,制
在建筑企业应对国家基建投资压缩、国内建筑市场竞争激烈,公司转型升级、寻求增量的背景下,海外市场的拓展变成了重中之重,如何在未来把海外市场做大做强做优,寻求更大的突破
随着我国社会快速发展,人们也更加关注社会职业精神。工匠精神是一种宝贵的精神文化,它具有深厚的文化内涵。许许多多的工匠们坚守在自己的平凡岗位上,用坚持不懈、尽心尽责
在各行各业中,监狱人民警察具有特殊的职业特征,不仅是因为他们承担了司法体系中最重要的监督、管理、教育任务,身处非同寻常的工作环境、面对不同一般的工作对象,还表现在工
薪酬分配事关企业员工的切身利益,是保持企业稳定和可持续发展的重要保证。守旧的薪酬分配方式已不适应现代林业企业。如何调整薪酬分配方式使薪酬真正起到激励作用已成当下