基于强化学习的倒立摆控制算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：zc198926

【摘要】

：

【作者】

：

杨文乐

【出处】

：

西安理工大学

【发表日期】

：

2019年08期

【关键词】

：

强化学习倒立摆 DQN算法 PG算法 Q学习算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

科技时代,人工智能充斥在我们生活的各个领域,从AIphaGo到AlphaZero都在渔释着它的强大。机器学习作为人工智能的核心,是使计算机具有智能的根本途径。强化学习作为机器学习研究领域的一个热门方向,其通过智能体与环境的交互作用,从中汲取经验,以自学习的方式不断更新改进控制策略,逐步达到最优或近优控制效果。由于强化学习是一种无模型无监督的机器学习方法,因此具有通用性强,适用范围广泛,参数自整定等优点,能够极大降低控制系统的设计难度和人力投入,具有广阔的应用前景。因此,研究强化学习具有重要的理论价值和实际工程应用价值。倒立摆系统是一个多变量、非线性、高阶次、强耦合的自不稳定系统,能够模拟反映多数常见的控制对象,其控制算法具有多输入单输出的特点,因而是一种典型的自动控制理论研究装置。以该问题作为研究对象,能够有效反映出控制算法在实际应用系统中的随动性、鲁棒性、跟踪及镇定性等问题。因此,本文以一级直线倒立摆系统为对象,进行深度强化学习算法的研究。主要研究内容以及成果如下:(1)对强化学习的基础概念进行介绍并分析。通过对常用强化学习算法的理论推导和马尔科夫决策过程各参数分析,为强化学习以及深度强化学习算法在倒立摆控制系统中的应用奠定了理论基础。(2)通过OpenAI Gym游戏库,完成了深度强化学习DQN算法、双网络DQN算法、PG算法在一级直线倒立摆平衡控制中的实验仿真。结果表明,三种控制算法均可以快速完成训练,达到对倒立摆的平衡控制。在此基础上,论文进一步研究测试了三种不同reward给定方式对算法的影响,通过实验比较,发现线性化reward方式具有最快的训练速度,从而为强化学习在真实倒立摆控制训练提供了重要经验。(3)搭建了基于PLC的一级直线倒立摆硬件实验平台,通过PID控制算法对倒立摆的平衡控制,验证了实验平台的有效性,并为强化学习算法的控制研究提供了测试基准。(4)基于DQN算法,实现了一级直线倒立摆的起摆控制。经过大约50个训练回合后,控制算法即可在200个控制周期(一个控制周期为20ms)内,使摆杆由下垂位置摆动到直立位置附近,完成倒立摆起摆控制。(5)基于Q学习算法,研究了倒立摆平衡控制。针对真实控制环境中噪音较大、训练量受限、部分训练样本难以获得的局限性,研究设计了具有多元训练策略的off-policy控制算法,该算法能够从人工示教或其他控制算法中获取经验,提高训练效率,从而通过有限实验快速完成训练并获得更好的控制效果。由于该方法有效降低了实验训练量,从而使强化学习算法以更小的人力投入,获得更好的控制效果,为强化学习在实际工程的应用做了初步的实践,具有良好的应用前景。

其他文献

以“人”喻“资”为哪般——北京雅方房地产开发有限公司的人力资源管理战略

本文紧密联系北京雅方房地产开发有限公司的人力资源管理实践,从企业家独特的视角阐述了人力资源管理的现代理念和战略思路.

期刊

人力资源管理房地产

16极18槽分数槽绕组汽车永磁发电机设计研究

为了解决传统12极36槽的汽车永磁发电机电动势谐波含量大、绕组叠落难以提高槽满率、齿槽转矩大等问题,提出一种16极18槽分数槽绕组汽车永磁发电机。在给出分数槽集中绕组汽

期刊

汽车永磁发电机16极18槽分数槽绕组铁心损耗模型电动势谐波

康妇炎胶囊与头孢呋辛钠联用对慢性盆腔炎患者的临床疗效及其对hs-CRP、IL-2、TNF-α水平及复发率的影响

目的:探究康妇炎胶囊与头孢呋辛钠对慢性盆腔炎性疾病(PID)患者的临床疗效及其对hs-CRP、IL-2、TNF-α水平及复发率的影响。方法:选取2016年3月—2018年3月间诊治的慢性盆腔

期刊

康妇炎胶囊头孢呋辛钠慢性盆腔炎临床疗效炎症因子

天空背景下红外小目标检测与跟踪算法研究

红外小目标检测与跟踪是红外预警、红外制导等技术的核心所在,在军事国防领域有着广泛应用。一个完整的红外小目标检测与跟踪系统包括图像采集、图像预处理、目标检测、目标

学位

红外小目标检测虚警抑制目标遮挡稀疏表示粒子滤波跟踪

农产品电商的新希望

<正>"站在风口上,连猪都能飞起来。"小米创始人兼CEO雷军的这一言论曾引得全行业的追捧,就在业内认为淘宝、天猫等网购平台已呈现增速放缓之时,电商领域又迎来新的风口,讲起

期刊

农产品电商产业链农牧企业

幽门螺杆菌与小儿上消化道疾病的探讨

从Ｗａｒｅｎ和Ｍａｒｓｈａｌ发现幽门螺杆菌（ＨｅｌｉｃｏｂａｃｔｅｒｐｙｌｏｒｉＨｐ）并提出该菌可能是胃炎或消化性溃疡的致病菌以来，Ｈｐ感染的检测发展迅速，然而其大多属于有创性，而且多数研究在成年人中进行。本文通过对有消化道症状的患儿采用

期刊

上消化道疾病十二指肠炎十二指肠溃疡浅表性胃炎幽门螺杆菌

关于二战后资本主义世界经济体系的形成

<正>【高考展望】美元汇率的变动、欧洲的债务危机、人民币汇率机制改革等是时事的热点,货币与贸易、经济全球化是人们热议的话题,也是高考关注的重要考点。二战后形成的美国

期刊

世界货币体系世界银行国际货币基金组织全球化世界经济体系布雷顿森林体系后资本主义

永磁无刷轮毂电机分数槽绕组的设计与分析

永磁电机由于齿槽效应产生的定位转矩和转矩脉动,在转速较低的轮毂电机中尤为显著。无刷直流电机常用的整数槽绕组节距较大,且绕组相互重叠,使得绕组端部很大。该文对于极对

期刊

分数槽定位转矩永磁电机

龙眼核药用价值概述

龙眼核有止血止痛、抗菌消炎、降糖降脂及抗氧化、抗肿瘤的功效,本文主要概述龙眼核的药用价值,以供参考。

期刊

龙眼核止血抗炎降糖药用价值

“罗斯福新政”复习导航

<正>近年全国各地高考试题中有关罗斯福新政的试题屡见不鲜,多以文献摘引型和情境材料型试题为主。今后,该内容仍将是各地高考考查的重点和热点之一。【学法指导】必修2第六

期刊

罗斯福新政经济危机社会主义国家干预经济战时共产主义政策新经济政策国家垄断资本主义

基于强化学习的倒立摆控制算法研究

与本文相关的学术论文