基于强化学习的倒立摆控制

来源 :北京工业大学 | 被引量 : 12次 | 上传用户:tianshiye45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习与监督学习不同之处在于,它不需要教师信号,又不同于仅能完成极其有限功能的无监督学习在学习过程中得不到任何提示,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化。它采用人类和动物学习中的“行动-评价-改进”机制,与动物学习理论、认知科学、自动学习机等有密切的关系,对于求解无法获得教师信号的复杂优化与决策问题具有更广泛的应用前景,近年来在人工智能研究领域受到了国内外学者越来越多的重视。 鉴于运动平衡控制问题对于机器人主体研究的重要性,我们对运动平衡控制技能的认知问题进行了特别的研究。本课题主要以强化学习为研究对象,在已有强化学习算法的基础上加以改进和提高,提出了自己研究的学习系统,并应用到对倒立摆系统的平衡控制中。目的使智能控制系统具有学习能力,能在系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。其研究成果可广泛应用于机器学习、自动控制、机器人学等诸多领域。论文取得以下主要成果: (1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。它完成了具有连续状态和离散动作的学习控制任务,一级倒立摆系统的仿真实验,验证了该学习系统的有效性。 (2)在强化学习和动态规划算法的基础上,提出了一种基于内部回归神经网络的强化学习系统(ReinforcementLearningSystembasedonInternallyRecurrentNets,RLSIRN)。RLSIRN不需要预测和辨识模型,在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效实现了对具有连续状态和连续行为空间任务的控制。通过一级和二级倒立摆系统的仿真实验验证,结果表明了该学习算法在性能上优于其它同类强化学习算法。同时将RLSIRN应用到一级倒立摆物理实体的控制中,实验取得了较好的控制效果。 (3)在基于RLSIRN的基础上,改变了评价和动作神经网络的网络结构,同时采用权值的适合度轨迹(EligibilityTraces)来加速学习过程。通过倒立摆系统的仿真实验比较了这两个学习系统。
其他文献
本研究旨在探讨工作满意度与组织承诺与工作时间,工作水平和性别差异之间的相关性。该研究在阿塞拜疆共和国教育部进行,参与者人数为124人(n=123.94)。结果发现性别差异不影响工作满意度水平或者组织承诺,但工作职位水平与工作满意度水平显着相关,另一方面工作职位水平与组织承诺水平无关.基于这次考试的理解和结果,本研究为今后在该领域的更多研究提供了潜在的选择。首先,为了建立更健全的实验,未来研究人员在
《声无哀乐论》是中国古代音乐思想史上一部划时代的极具思辨性的音乐美学论著,集中体现了嵇康的音乐美学观点。文中东野主人以声无哀乐之理,与秦客进行了八个回合的辩论,层层深入,有力地驳斥了秦客所持的儒家乐教观念。文章通过对《声论》主要核心思想的钩沉,诠释嵇康音乐美学思想内涵及其对中国音乐美学的深远影响。
在当今学前教育去小学化大背景下,教师和家长都意识到以牺牲孩子创造力为代价的教育方式不可取,我们需要教给孩子从长远看能帮助他们的东西。在美术教育方面,对幼师的要求不是更高更厉害的绘画艺术方面的能力要求,而是源于幼儿培养的特殊性,对幼师人文素养、教师职业道德和安全意识等方面有更高的要求。幼儿园美术教育教什么是所有幼师都必须思考的,也是开设学前教育专业对幼师进行培养的中高
幽默是日常生活中普遍而又重要的一种现象,它可以调节心情,活跃气氛,促进交流。可以说幽默是人类智慧的结晶。幽默本质上是一种情感,但其产生原因和表达方式相对一般的显式情感要更复杂,属于隐式情感。近年来,互联网飞速发展,人们在微博以及论坛等社交媒体分享了大量的幽默文本,同时机器学习和深度学习等技术在显式情感分析领域取得了令人瞩目的效果,这两个因素推动了幽默计算研究的发展。
分类号:学校代码:10140密级:公开学号:4031941827il婁,香LIAONINGUNIVERSITY专业学位论文THESISFORPROFESSIONALMASTER
学位
明确马铃薯生长发育规律及其栽培调控机制对马铃薯高产优质绿色栽培具有重要意义。基于WebofScience和中国知网数据库对2019年国内外马铃薯栽培学科研究内容进行了文献调研,其中SCI核心数据库收录论文164篇,中国知网收录核心论文58篇,揭示了马铃薯栽培生理方面的研究现状,分析比较了目前国内外马铃薯栽培生理研究热点的差异,并展望了未来马铃薯栽培生理研究的发展方向
埃迪卡拉纪晚期的化石生物群对于研究早期生命在前寒武纪–寒武纪过渡时期的演化历史具有重要意义。然而,埃迪卡拉纪末期化石动物群的证据目前比较匮乏,研究基础薄弱,这大大地限制了我们对整个早期生命演化事件的认识。因此,只有加强对埃迪卡拉纪晚期化石生物群的研究,才能从根本上解决这一科学问题。本论文选择扬子地台两个代表性剖面(陕西宁强胜长坝剖面和鄂西三峡白马沱剖面)中的三套化石
光动力疗法(PDT)作为一种无创、安全的治疗癌症的方法,由于其精确可控治疗和较低的皮肤毒性而备受关注。酞菁配合物具有单线态氧量子产率高、结构稳定易于修饰等优点,是很有前景的第二代光敏剂。但是由于溶解性差和对肿瘤细胞的靶向富集能力有限,限制了其在光动力疗法中的应用。设计合成实现细胞器标记和荧光成像引导治疗的酞菁光敏剂成为了研究热点。本论文设计合成了系列酞菁光敏剂及其水
服务网络设计用于解决货物运输系统的战术规划问题,广泛应用于交通、物流、生产等领域,涉及到包括大量的车辆、人员等的庞大物流运输网络。由于物流企业的运输网络不断完善,覆盖全国更多的地区,优化物流网络以降低运输服务运营成本变得尤为重要。中国的电商业正处于快速发展之中,消费者的行为受商家促销、节假日等因素的影响导致需求的波动非常大,为快递和零担货物运输服务网络的规划与设计带
孙家岗遗址位于湖南常德市澧县城头山镇大杨村三组,地处澧阳平原西部,南距澧水约10公里,东北距城头山国家考古遗址公园4公里。遗址海拔高度为46~49米,中心点地理坐标为东经111°36′30″、北纬29°39′40″(图一)。该遗址于1986年全国第二次文物普查时发现。1991年,湖南省文物考古研