Q-learning强化学习算法改进及其应用研究

被引量 : 32次 | 上传用户:liusiyu111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于强化学习不需要教师信号,能在与环境的交互过程中不断地完善自己的认知技能,因此对于求解复杂的控制与决策问题具有更广泛的应用前景。课题选用强化学习算法中经典的Q-Learning算法,并结合不同的控制对象为实验模型,在已有强化学习算法的基础上加以改进,将Q-learning算法中的状态模糊化。此外结合神经网络,提出了自己的研究模型和见解。将这些改进应用到走迷宫寻优、倒立摆系统控制、中和反应控制及电梯群控器的调度中。主要研究成果包括以下四个方面:1、介绍一级倒立摆系统。提出了基于Q-learning强化学习算法对倒立摆的控制。由于学习系统仅有4个离散的控制动作,控制精度比较差。鉴于上述缺陷,提出Fuzzy-Q学习实现倒立摆控制,使得控制器的输出为连续信号,有效的提高了控制精度。2、将Q学习和多步Q学习的算法应用到走迷宫路径寻优中,并对Q学习算法的参数进行比较分析。3、以中和反应控制为例,将强化学习算法渗透到生物、化学工业学科领域中。为该领域的发展提出一个新的研究方向。4、首先,阐述电梯群组调度基本概念。总结现有的电梯群组调度方法。其次,将神经网络与Q学习算法结合应用到电梯群组调度问题。
其他文献
<正>黎巴嫩的巴尔贝克神庙公元前3000年左右,迦南人在现今的黎巴嫩的贝鲁特东北85公里处的贝卡平原北部,修建了一座太阳神的神庙,它被称为"巴尔贝克"。"贝克"是城的意思,"巴
随着微生态学的崛起和医学的进展,人们对双歧杆菌的研究在不断深入。本文根据国内外最新研究报道,就双歧杆菌的种类、形态、生物学特性和保健功能,以及保健产品和应用趋势进
因会展经济具有巨大的带动作用,内蒙古有发展会展经济的必要。目前内蒙古会展经济发展迅速,会展类型日益丰富,展会场馆日益增加,但是也存在着诸多问题。为了促进内蒙古会展经
黄河在历史上经常泛滥成灾,而明朝是治黄史上一个重要的时期。永乐元年(1403年),明成祖朱棣迁都北京,而中国经济重心在南方,首都北京的粮食供应必须依靠“南粮北调”。最初,南粮北调
研究背景脑卒中是最常见的一种慢性病,是危害人类健康的三大“杀手”之一,不仅发病率高,也有较高的伤残率和死亡率,50%~70%的存活者遗留瘫痪、失语等残疾,给患者家庭和社会带
视觉系统是一个资源有限的信息加工系统,在任何时刻视觉注意只能选择外界环境中的有限信息进行加工。影响视觉选择性注意的因素既可能是视觉场景中具有显著特征的刺激,也可能
在科技帶動技術,使生活圍繞著網路資訊的時代,網路的使用年齡群已降至未來的兒童。隨著網路的興盛與蓬勃發展,帶動了新的操作族群,即為現今正在成長與發展階段的兒童。網路對
随着各种新型建筑的出现,建筑的火灾危险性己经越来越引起人们的关注。重要公共聚集场所的建筑具有空间高大,功能复杂,可燃物多,火灾隐患多,人员集中等特点,一旦发生火灾,如
本文通过描述一个处于不规范的抗癌保健品行业的小企业发展过程,分析其在发展过程中的宏观环境,行业驱动关键因素,行业的主要营销模式和主要产品,从这些资料中来预测行业的发
在盐渍土地区,由于溶盐的不稳定性,路面较常规地基路段的路面要差。尤其是含硫酸盐类盐渍土,由于硫酸盐的结晶膨胀,导致路面不均匀变形、开裂、鼓包、波浪等病害,给盐渍土地