基于强化学习算法的电梯动态调度策略的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:shizex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了基于强化学习的电梯群组调度。由于电梯群组系统重要的实际意义,电梯群组的调度问题得到广泛关注。电梯系统是一类在连续时间和空间中运行的离散事件动态系统(DEDS),为探索解决问题的有效方法,首先对DEDS调度方法进行研究。在总结DEDS调度方法及应用领域的基础上,将其归类为传统方法、智能方法和强化学习方法。强化学习作为动态规划的近似算法起源于人工智能领域,随着强化学习的数学基础取得突破性进展,逐渐引起人工智能、控制理论和运筹学等领域的研究兴趣。论文研究了强化学习原理及发展历史,分析了其框架背景及其避免了在状态空间中做耗尽式搜索而导致的不可计算问题的特点以及环境模型不再是计算要素的特点,并建立强化学习基本模型。另外,论文根据不同的框架背景对强化学习方法做了分类性研究和典型算法阐述,建立了研究强化学习方法解决实际问题的一般步骤,这对后续研究起指导性意义。强化学习方法作为在与环境的交互过程中学习最优策略的方法,适合于求解电梯群组调度这种大规模动态优化问题。论文在详细分析电梯群组调度领域特点的基础上,总结出电梯群组调度的三大难点,即问题状态空间大、系统运行过程伴随极大的不确定性和重派梯导致的大计算量。以马尔可夫决策过程(MDP)为背景,模型化电梯群组调度问题,根据领域特点定义模型各要素。论文运用随机行为选择策略和前馈神经网络分别解决强化学习在应用中所存在的探索问题和值函数的泛化问题。并将两者与Q-learning的值迭代算法结合,共同构成基于强化学习的电梯群组调度算法。论文设计了开放的、松耦合的算法软件结构,定义各部分功能函数的接口,方便未来的重用;使用MATLAB作为算法运行的主要环境,提高了算法开发的快速性和调试的高效性。结合电梯群控虚拟仿真环境进行调度算法仿真,共4种不同的交通流条件被用于算法的仿真与训练。实验结果展现了算法较好的学习能力,在与其他调度算法比较中体现了优秀的性能和对不同交通流条件的适应能力。
其他文献
为了研究地表移动盆地内非主断面方向下沉规律,提高非主断面实测数据在预计参数反演中的应用,以唐山矿T3292工作面为工程背景,采用理论分析、数值模拟、现场实测相结合的方法
最近随着发光二极管(LED)芯片发光效率的提高以及大功率高亮度LED(HB-LED)芯片的制备成功,使得白光HB-LED 固态照明成为现实,特别是以后与太阳能电池等节能电源的集成,将成为
为探讨两向不等压巷道围岩塑性区的分布规律,以淮北许疃煤矿-500 m水平81采区南翼轨道大巷为工程背景,利用Abaqus数值模拟软件,采用控制变量法,对两向不等压巷道围岩塑性区的
日前,太平财险携手水滴保主办了“科技赋能,创新融合”新时代健康保险论坛,研讨如何整合医疗、保险和金融行业数据库,形成跨界平台,更好的服务于群众,并呼吁国家医保体系能展
为了研究不同煤阶煤的自燃特性,以HM褐煤、ZX长焰煤、DHS气煤、DL瘦煤、ZLS无烟煤为研究对象,利用程序升温仪和热重分析仪,对5种煤样进行气态产物、热效应和动力学特征进行分
近年来,电子商务正在蓬勃发展,以电子商务为核心的信息化已成为社会和经济发展的主要趋势。但是,相对于传统的市场而言,在线交易的非人格化特性和信息的不对称性使买卖双方更
以推送通知的方式向移动端用户报道新闻,这已成为当下新闻业的普遍做法,手机锁屏和状态栏等更是因此成为争夺舆论影响力的新战场。追本溯源,这种技术在新闻业中的应用起于西
针对陷落柱与伴生断层普遍发育从而严重影响矿井安全生产的问题,提出将陷落柱及其伴生断层视为陷落柱-断层复合构造的地质构造联合体,基于李家楼井田大量瓦斯地质资料,深入总
为研究预氧化对煤复燃过程极限参数的影响,采用程序升温装置模拟了煤初次氧化与二次氧化过程,对比分析2次氧化过程中煤自燃耗氧速率、气体生产率、放热强度及极限参数。结果
随着我国社会主义市场经济体制的不断完善,电力企业“厂网分开、竞价上网”等一系列改革措施开始逐步实施。在这种新形势下,电厂如何在越来越激烈的市场竞争中生存和发展,是