【摘 要】
:
深度强化学习是机器学习领域中与自然界动物学习方式最为接近的一种学习范式,被许多学者认为是实现通用人工智能的最可行方法。其通过结合强化学习的决策能力与深度学习的感
论文部分内容阅读
深度强化学习是机器学习领域中与自然界动物学习方式最为接近的一种学习范式,被许多学者认为是实现通用人工智能的最可行方法。其通过结合强化学习的决策能力与深度学习的感知能力,实现了从直接输入到输出的端对端学习方式,具有广阔的应用前景和重要的理论研究价值。在现阶段的研究中,存在着一些亟需解决的问题,其中重要的一点是深度强化学习的智能体必须在环境中进行探索,通过不断试错来累积经验,进而提升策略。该问题导致算法在探索成本很低的仿真环境下能够取得如AlphaGo在围棋上的瞩目成就,而在探索成本很高的真实环境下却鲜有产品落地的问题。针对深度强化学习在真实环境下做实物训练的时间成本过高及试验设备损耗问题,本文以直线一级倒立摆硬件试验平台及四旋翼无人机仿真试验环境为载体,对深度强化学习Soft actor-critic(SAC)算法在运动控制问题中的应用进行了研究。SAC算法是OpenAI团队提出的最新的无模型深度强化学习算法,具有鲁棒性强、超参数不敏感的优点。但目前SAC算法的应用研究还很少,因此具有很高的实际研究价值。本文的主要研究成果如下:(1)基于Python语言建立了四旋翼无人机仿真试验环境,在该环境下进行了基于深度强化学习SAC算法的四旋翼位姿控制试验。通过对比算法中不同奖励函数设计及超参数设置,总结了深度强化学习算法的使用经验,并展示了试验过程中遇到的一些难题及解决方案,为使用深度强化学习解决运动控制问题提供了参考。(2)搭建了基于PLC的直线一级倒立摆硬件试验平台,并基于Python语言建立了模拟该试验平台的仿真训练环境,使用SAC算法在仿真环境下进行了倒立摆起摆及稳摆控制训练,并将训练结果应用于倒立摆硬件试验平台,取得了良好的起摆及稳摆控制效果,为深度强化学习在实际工程中的应用提供了思路。
其他文献
目的:研究中药复方抗痫灵抑制癫痫的发病机制。方法:采用免疫组化方法和实时荧光定量PCR(Real timePCR)方法检测大鼠脑组织中海马c-fos蛋白表达的影响。结果:经中药复方抗痫灵治疗
概述了马尾松天然树脂的特性及其在制浆造纸过程中产生的危害以及有效的控制方法,通过使用添加滑石粉、硫酸铝、生物酶等处理技术,经过经济核算和环境分析,我们认为利用生物
因客观原因,参加2017中国城市规划年会的注册城乡规划师没能在现场办理继续教育学时的确认.现应广大注册城乡规划师的要求,就注册城乡规划师参加2017中国城市规划年会的继续
目的:探讨针刺、中药及针药结合对大鼠抗运动疲劳能力及其作用机制。方法:将60只Wistar雄性大鼠随机分为假手术组、模型组、参附注射液组、针药结合组,每组各12只。采用力竭游泳
本文对比广纸PM8纸机使用三元助留系统和单元助留系统的生产情况,并详细分析成纸质量变化。
目的:研究五味子醇甲改善果蝇攀爬能力的量效与时效关系。方法:在恒定温度、恒定湿度、自动定时光控的环境中,取1日龄未交配的雄性果蝇作为观察对象,取5组分别给予药物浓度0.5%,1%,2%,4%,8
目的:从藏药有机酸提取物中筛选对单胺氧化酶具有高抑制活性的植物提取物。方法:采用碱提酸沉提取藏药总有机酸,采用酶标法测定单胺氧化酶抑制活性。结果:40种藏药的有机酸提取
β-桶外膜蛋白(outer membrane proteins,OMPs)广泛存在于革兰氏阴性细菌的外膜以及真核细胞中线粒体和叶绿体的外膜中。目前认为,β-桶外膜蛋白在核糖体中合成后经由内膜上的Sec系统转运到膜间质,在膜间质中由SurA、Skp、DegP、FkpA和PpiD等质量控制因子运送至位于外膜的BAM(β-barrel assembly machine)系统完成组装与插膜。其中分子伴侣蛋
针对目前在高校教与学中的一些不良倾向,如本科生忽视专业课的学习以及实践教学;专业课考试仍以闭卷、开卷考试为主,学生“应付考试”之风盛行;专业课多媒体教学形式单一,澡件质量
通过对企业生命周期的分析和解读,深入探讨了企业生命周期规律中企业文化力因子的作用,指出企业文化力是对企业生命有机体的活化,是对企业战略管理运作的升华,是企业管理科学