强化学习与注意力机制融合的信号灯控制方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:mahsdbxc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
十字路口作为城市道路环境的重要组成部分,其交通信号灯的控制与道路通行效率密切相关。一个良好的交通信号灯控制方案可以最大程度地提高道路网络的交通流量,降低车辆的平均旅行时间。因此,开展多路口交通信号灯控制研究有利于缓解交通拥堵,同时也为未来智能交通的发展奠定基础。近年来,随着机器学习技术不断迎来新突破,越来越多的研究者基于强化学习算法学习并得到新的信号灯转换方案。相比传统固定信号灯计划的多路口交通信号灯变换方法,基于强化学习的方案能够快速适应动态变化的交通流量。然而,这些研究往往是独立地观察目标十字路口的交通状况,从而忽略了周围邻近十字路口动态变化的交通信号灯状态以及交通流量。此外,关于挖掘交通数据信息的时间特征,大多数方法只关注到同一个路口在相同时间段的历史交通数据信息,忽略了一个时间段内,不同历史时刻道路网络的交通状况对当前路口的交通状态也具有不同的影响。针对上述问题,论文基于注意力机制和强化学习提出了一种新的多路口交通信号灯控制方案。具体包括如下几个部分:(1)针对部分研究工作忽略邻居路口动态变化的交通状况,或者简单直接联合邻居路口的交通状态导致模型无法实现有效学习的问题,论文提出构建空间注意力模型,即采用注意力机制学习和指定不同邻居路口以不同的影响权重,从而实现路口间交通信号灯控制的隐式协作,避免邻居路口交通状况的突然变化给目标路口带来非平稳影响。(2)针对不同历史时刻道路网络的交通状况对当前路口交通状态的影响也是不同的,论文采用长短期记忆网络LSTM配合注意力机制提取十字路口交通状态的时间相关性特征。与空间注意力模型不同的是,时间注意力模型关注的是重要时间步交通状况的影响,空间注意力模型则关注每个时间步重要邻居路口交通状况的影响。(3)基于空间注意力模型与时间注意力模型,论文方案不仅可以捕捉多路口交通信息的空间特征,还可以捕捉目标路口历史交通信息的时间相关性特征。最后联合时空特征并基于分布式Ape-X DQN框架预测每个十字路口下一个时刻交通信号灯的相位。论文选用4个公开的仿真合成数据集和2个公开真实的交通数据集开展实验。在不同的评估指标下对比了论文模型与其他九种对比模型的效果差异。实验结果表明,论文方案在车辆平均旅行时间以及道路网络吞吐量这两方面的性能要优于现有部分主流方法。其中,对比Co Light方法,在仿真数据集上,论文模型在车辆平均旅行时间方面降低了1.9%。在真实数据集上,模型在车辆平均旅行时间方面降低了2.5%。
其他文献
云制造作为智能制造的一种新手段,能够实现跨领域、跨地域的海量制造资源服务共享,在提高资源利用率的同时也促使企业更注重发展核心竞争力,从而提升行业生产质量。云制造下的制造资源优选是制造资源在云平台虚拟化为制造服务后,为企业挑选出最优任务解决方案的过程,其优选结果将直接影响到云制造的推行效果。已有研究中大多对于各参与方利益考虑不够充分,使得建立的评价指标体系不够完善,且所构建的模型因缺少对云制造动态性
学位
近年来,部分地区冒进式城镇化所造成的建设用地无序扩张、低效用地快速蔓延、农业与生态空间萎缩等问题愈发严重,导致以数量增长型城镇化为导向的城市经济发展方式难以为续。为了突破当前困境,国家对建设用地的供应方式正在由年度用地数量型指标预算管理向总量控制下的质量型绩效管理转变。在建设用地总量控制的大背景下,土地资源稀缺性进一步凸显,因而研究如何科学合理地在区域间分配建设用地指标,对于缓解人地矛盾、保护农业
学位
近两年来由于疫情的持续影响以及中美两国经贸摩擦不断升级,我国企业所处的市场环境竞争也越发激烈,对企业的经营管理,特别是财务危机管理的要求也越来越高。面对瞬息万变的市场环境,诱发企业出现财务危机的因素也更加多种多样,所以如何构建更加科学有效并且高精度的财务危机预警模型对于企业实现更高质量的财务管理目标,就显得尤为重要。目前已有的财务危机预警模型由于受到数据分析技术发展的制约,大都基于简单的Z分数模型
学位
自中国提出碳达峰目标以来,CO2排放的驱动机制和峰值得到了越来越多的关注。中国有几十个省份,省份之间有着参差不齐的产业、人口和能源,这使得每个省分都具有其个性化的特征,而爆发于2019年的新型冠状病毒(COVID-19)又对中国经济产生较大影响。因此,掌握中国及其省份能源消费及CO2排放的演化趋势、全面把握中国及其省份的CO2排放驱动机制、预测CO2排放峰值并给出合理的减排路径和政策建议对中国及其
学位
大数据、人工智能、元宇宙等信息技术给法学高等教育在教师法学教学、学生法学学习、法学课程设置和法学教学环境方面带来深刻变革和较大挑战。为了应对这些挑战,法学高等教育必须应势而起,将大数据技术与传统法学教育结合。大数据环境下法学高等教育的应对包含课堂教育范式转换、课程体系建构、教师角色重塑、学生学习范式提升、人才培养理念更新、科学多元评价体系构建、教育教学方式指向、教学内容体系趋势把握,以重塑法学高等
期刊
当前,国家经济面临转型,制造业企业作为国民经济主体,其所具有的传统经济发展模式已经严重危害到中国的资源和环境,环境污染成为关系企业生死存亡的重大问题。“绿色创新”引领绿色可持续发展,专为解决突出的环境污染问题。由于面临外部环境的不确定性,依靠单一企业实施创新活动具有较高的风险,因此,企业可以通过与其他企业之间构建关系网络来实现自身创新发展,而董事会作为企业内部治理机构,董事会成员通过在不同企业董事
学位
当前,中国科技创新面临着严峻的国际形势,为提高国家综合创新能力、创新绩效,促进企业进行科研创新活动的积极性,政府在逐渐加大对高新技术企业的政府科技补助力度。然而,在政府科技补助落实使用的过程中,由于研发投入活动具有风险高、回报期久的显著特点以及信息不对称导致的道德风险,使一部分企业有将补助用于低效率项目来规避风险的倾向,也大量存在着企业迎合财税政策以寻求扶持的行为。因此,在我国特殊的制度背景条件下
学位
CEO业绩型薪酬被用于解决代理问题,但股东与CEO之间信息不对称,使业绩型薪酬无法完全规避CEO的道德风险。普遍存在的CEO薪酬粘性现象不仅体现了业绩型薪酬机制的缺陷,薪酬激励的失效,同时不利于公司长期发展,严重的甚至会引发系统性风险。以A股市场2010—2019年的制造业民营上市公司为样本设计CEO薪酬定价公式,解决CEO薪酬粘性问题。CEO薪酬定价公式的设计思路是:将行业内的公司分组,并把薪酬
学位
在高考中,语文是一门必考科目,其高考成绩的好坏与学生的高考成败有着直接的关系。这就需要语文教师在复习过程中,对语文复习策略进行不断的创新优化,对复习过程中的困境进行突破,使语文复习策略得到切实提升,进而帮助学生提高语文高考成绩。
会议
报纸