基于深度强化学习的城轨列车ATO智能控制策略研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:liaonianyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
列车自动驾驶(Automatic Train Operation,ATO)系统是铁路智能化发展和城市轨道交通列车自动运行控制极为关键的一部分。车载ATO系统根据运行命令和移动授权(Movement Authority,MA)范围结合线路参数,计算目标运行速度,随后调整输出的牵引和制动命令,控制列车跟踪目标运行速度。合理的ATO列车控制策略,可以保证列车安全、准点运行,提高停车精确度和乘坐舒适性,降低司机驾驶的疲劳度,在一定程度上减少列车牵引能耗。目前国内外多数研究都是对列车进行建模,采用仿生优化算法计算列车运行目标曲线,无法根据列车运行状态实时调整控制策略,本文考虑到列车运行环境复杂多变,基于强化学习的自适应、无模型、决策力强等特点,将深度强化学习(Deep Reinforcement Learning,DRL)与列车自动驾驶相结合进行展开讨论,主要研究内容如下:首先,研究城市轨道交通列车的运行特点,以单质点模型为基础,对列车进行受力分析,建立列车运行模型。利用列车运行数据采用系统辨识的方法得到列车基本阻力参数,通过实际列车数据验证建立列车运行模型的有效性和准确性,作为算法训练数据的来源和后续实验的仿真环境。其次,根据强化学习马尔可夫决策模型,将列车的速度、距离和剩余运行时间作为状态空间,将列车的牵引/制动力级位作为动作空间。根据ATO系统的性能评价指标,从准点性、安全性、节能性和精准停车四个主要控制目标设计强化学习的连续型奖励函数作为引导算法学习的方向,同时根据列车的实际运行情况,将ε-greedy探索策略与司机驾驶经验相结合,约束算法的探索空间,增加有效样本数目,提高算法的学习效率和训练速度。然后,根据强化学习中基于值函数优化和基于策略函数优化与深度学习相结合采用两种不同的算法:深度Q学习算法(Deep Q Network,DQN)算法和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)算法用于求解列车节能控制策略。DQN算法使用神经网络对列车运行状态进行特征提取,利用列车历史运行数据训练神经网络逼近实际动作价值函数;DDPG算法使用Actor-Critic结构,将基于值函数和基于策略函数求解的优势相结合,Critic网络部分采用值函数求解方式对当前列车状态输出的动作策略进行评价,Actor网络部分采用策略函数求解方式输出当前状态的动作策略,根据Critic网络对该策略的评价进行修正。最后,根据上述研究结果,基于长沙地铁二号线的线路数据,对上述算法进行仿真验证。仿真结果表明DDPG算法相比于DQN算法和策略梯度(Policy Gradient,PG)算法在满足准点、安全、舒适和精准停车的情况下,节能性更好。对训练完成后的DDPG算法仿真列车行程规划时间调整、运行过程中临时调整进站时间和牵引系统故障后的控制策略,结果表明该算法能根据列车反馈的当前运行状态,实时调整控制策略,尽可能使列车运行满足准点、安全、舒适和精准停车的要求,具有较好的通用性和实时性。
其他文献
引导学生以抗虫棉的研究过程为主线将三种基本工具有机串联起来;通过阅读相关资料,提取三种基本工具的相关信息;并通过呈现相关图片,帮助学生进一步理解限制酶和DNA连接酶的作用特点;最后通过开展重组DNA分子的模拟活动,激发学生思考,启迪思维发展,达成深度学习。
在小学语文教学中,培养学生的课堂注意力是提升学生学习效率与学习质量的一个重要途径。学生具备了课堂注意力,学习才会更加有效。
随着中国进入老龄化社会步伐的加快,对老化刻板印象的研究在国内引起了一些争议和讨论。已有的老化刻板印象研究主要关于其形成机制和作用机制,而本研究从社会心理学的角度出发,在刻板印象内容模型即热情与能力双维结构的背景下,通过焦点小组访谈法和问卷法,研究初中生的老化刻板印象及其对老年人态度的影响,深入探讨亲密度和矛盾性家庭氛围在初中生的老化刻板印象及其对老年人态度之间的作用机制,并以此研究结果为理论支撑提
通过对高校体育教学中所蕴含的思政内涵开展深入剖析,旨在充分发挥跨专业融合育人的思维效果,完成立德树人的各项基本任务。在贯彻落实党的十九大精神过程中,高校将积极推动专业思政教学,同时在体育教学过程中渗透贯彻党的教育方针,以此发挥思政素质教育在高校体育教学中的引导作用。
教育部新近公布的《义务教育艺术课程标准(2022年版)》,引起了研究者和广大教师的普遍关注。由美术课程到艺术课程的改变,是美术课程“百年未有之大变局”。因为,从美术课程进入中小学118年以来,未曾出现这样的课程样貌。采用“合写”“分写”的方法,既突出了艺术的综合性,又照顾了美术学科的结构和逻辑。该课程标准正是在这一辩证关系中显示了其可行性。从这个角度切入,能帮助教师更好地理解艺术新课标,进而有效地
为解决目前工业含氟污泥量大与出路有限之间的矛盾、消除氟的二次污染,同时可以解决氟石精矿资源日益紧缺的严峻问题,对含氟工业污泥进行盐化、酸化、氟化及碱化四步法处理,对比用单步处理将含氟污泥进行除杂优化并进行中试研究。结果表明,含氟污泥中CaF2的含量高,可达总量的70%,四步处理法效果较好,除杂后氟化钙质量分数达到81%,收率为72.53%。中试试验效果显著,酸级氟化钙产量高,形成了成熟的制备方案。
目的 调查护理本科生对老年人的态度现状,从事老年护理的意愿和影响因素。方法 采用便利抽样法,抽取2019年12月到2020年3月间安徽中医药大学在校353名护理本科生为研究对象,采用一般情况调查表和中文版Kogan老年态度量表对护理本科生对老年人的态度,从事老年护理工作的意愿等进行调查。运用独立样本t检验,卡方检验和多项非条件logistic回归进行数据分析。结果 护理本科生对老年人的态度总均分为
课程思政建设主力军是教师,其参与度关系高校课程思政建设质量。基于289名不同年龄、不同学科高校教师的问卷调查,结合文献厘清高校教师课程思政的难点及常用“四类引入方法”和“五类结尾方法”的分析结果显示:89.62%的高校教师已开展课程思政工作或在专业课中融入思政元素,不同学科教师面临的困难和选用的教学方法具有差异性;悬念导入法和回应式结尾法有助于营造课程思政良好氛围,但采用的教师偏少,分别仅为14.