论文部分内容阅读
我国城市轨道交通向智能化发展是势在必行的。当前普遍使用的基于通信的列车控制(Communication Based Train Control,CBTC)系统在长期的运营中,暴露出了许多的问题。例如系统中轨旁设备较多、接口复杂、车地通信时延较大等。这些问题会影响系统性能,增加系统的维护成本。列车到列车(Train to Train,T2T)通信在城市轨道交通中的应用有望解决CBTC系统中的问题,因此,本文重点研究了基于T2T通信的列车控制系统,并创新性地将深度强化学习应用到该系统中,使列车变得更加“智慧”。列车可以自主完成资源分配和列车控制,使整个系统具有更好的性能和更加灵活的运营方式,进而有助于城市轨道交通向智能化发展。本文的主要工作及创新点如下:(1)提出了一种基于T2T通信的新型列控系统,该列控系统采用了LTE-M(Long Term Evolution for Metro,LTE-M)系统。然而,在这个新型列控系统中,列车到轨旁(Train to Wayside,T2W)通信和T2T通信共存,导致频率资源紧张。为了充分利用有限的频谱资源,频率复用是一种有效的技术,但它不可避免地带来了同频干扰问题,从而影响了T2T和T2W用户的服务质量(Quality of Service,Qo S)。因此,本文提出了一种基于多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MADRL)的算法,该算法用于T2T通信中列车对信道和传输功率的自主选择,以减少同频干扰。具体而言,每辆列车的发射端视为一个智能体,智能体通过与环境的交互,独立选择动作,实现分布式资源分配机制。仿真结果表明了该算法的优越性:与随机分配方案和现有的T2T通信资源分配方案相比,所提算法大大提高了系统吞吐量和T2T链路信息传输成功的概率。(2)在所提的新型列控系统中,为实现更加灵活的列车运营方式,采用了列车协同编队技术。针对列车协同编队中的列车控制问题,本文采用了基于预探索的深度Q学习算法来实现列车的自主控制,打破了传统CBTC系统中需要对列车进行集中控制的限制。其中预探索的加入不仅加快了所提算法的收敛速度,还提高了算法的训练效果。此外,考虑到乘客乘车体验,本文对所提算法进行了改进,具体而言采取了两个优化措施:一是当列车达到控制目标后将算法输出的加速度大小强制性设为零;二是对算法中的状态和奖励函数进行了改进。仿真结果表明,优化后的方案在列车控制过程中,具有更加平滑的加速度变化曲线,因此可以提高乘客乘车的舒适度。而且,所提算法在两车或三车追踪场景下均能很好地完成列车控制任务,满足列车协同编队系统的控制需求。最后,本文指出了所做工作中存在的不足以及如何对这些不足之处进行改进。