【摘 要】
:
本文采用增强学习算法解决城市道路拥堵环境下的车辆出行路径规划问题。与传统的监督学习不同,增强学习不会对决策器的输出直接评分,而是通过车辆选取行驶道路在交通道路环境中的反馈,在不断地道路选择探索的过程中,优化车辆的行驶策略,从而获得最大的累计效益。具体的研究工作如下:建立了基于增强学习的出行线路规划模型。模型以车辆为智能体,道路网络为交互环境,通过车辆根据环境状态不断探索找出车辆出行的最优路径。考虑
论文部分内容阅读
本文采用增强学习算法解决城市道路拥堵环境下的车辆出行路径规划问题。与传统的监督学习不同,增强学习不会对决策器的输出直接评分,而是通过车辆选取行驶道路在交通道路环境中的反馈,在不断地道路选择探索的过程中,优化车辆的行驶策略,从而获得最大的累计效益。具体的研究工作如下:建立了基于增强学习的出行线路规划模型。模型以车辆为智能体,道路网络为交互环境,通过车辆根据环境状态不断探索找出车辆出行的最优路径。考虑到交通出行路径选择与出行速度、道路拥堵具有相关性,本文给出的环境状态空间定义涉及了路段上车辆平均速度及路口拥堵指数等要素;针对拥堵指数、速度为连续量导致连续状态空间难以描述的问题,本文将状态定义为路口路段拥堵指数等级及速度的等级,在此基础上,给出了离散的表格型状态空间;鉴于线路的选择与行驶的时间、距离等因素相关,给出了考虑交通拥堵指数、路段距离、路段速度等因素的回报奖赏函数;以车辆行驶的不同方向为模型的动作集合,采用基于最佳优先搜索算法的贪心策略获取给定路网状态下的最优路径选择策略。利用青岛市交通数据进行增强学习算法模型仿真,构建了青岛市道路网络,给出了青岛市路网的状态空间,基于奖赏回报函数和动作探索策略,给出了路径选择策略,实验证明该模型能够解决车辆出行规划路径问题。针对道路路口、道路选择的多样性以及状态的连续性导致空间“维数灾难”问题和连续状态空间问题,本文采用值函数逼近策略去解决表格型增强学习中的值函数计算问题,使得模型在连续状态环境中能够获得车辆行驶路线。
其他文献
索道设计和创新过程中,索道配件逐年增加,配件中含有庞大的标准、非标及电气配件以及在项目实施和售后服务过程中配件管理存在各种问题,为此建立了索道机械配件管理系统,该系
电力系统在国家的生产与建设中扮演着至关重要的角色,它不仅是国家发展的动力,更是人们日常生活与工作顺利开展的保障.电力系统的构造和相关运作程序都比较复杂,一旦一个环节
运用文献资料和逻辑分析法,以足球市场化阶段为分析视角,对我国足球制度的逻辑与悖论进行理性的论证。分析认为:我国市场化阶段的足球制度逻辑应是政府管理+公共财政+市场机制+私
目的 提高对外耳道真菌感染的重视并进行合理治疗.方法 回顾分析2008年1月至2010年12月确诊为外耳道真菌感染的患者共51例(56耳),分析致病菌的菌种、原因治疗方法和疗效.结果 5
<正>随着我国支付体系建设的日渐完善,银行卡业务得到了迅速发展,持有有透支功能的信用卡的人越来越多。为了抢占市场,提高发卡数量,各商业银行的发卡机构纷纷推出了例如集体
对于高等教育来说,对高校实验室的建设和管理进行加强具有极其重要的意义。笔者在本文中对当前高校实验室在管理上可能存在的主要问题进行简要分析,对能够使高校实验室管理得以
凭借被动成像的特性以及能全天时工作的优势,红外成像系统无论是在军事应用中还是民事应用中都逐渐得到越来越广泛的应用。然而由于红外焦平面阵列的制造水平和器件材料等方面的不足,红外焦平面成像具有固定的非均匀性,严重干扰了系统的成像质量。同时由于红外成像的机理,采集到的红外图像存在对比度差,细节不足等缺陷,会对后续的目标检测识别等处理造成很大的影响。因此,目前红外成像图像质量提升技术非常的重要和必要,具有
目的:建立三七总皂苷口含片含量的高效液相测定方法。方法:采用高效液相法进行梯度洗脱,色谱柱为Hypersil NH2(4.6mm×200mm,5μm),流动相为乙腈-1%磷酸二氢钾溶液,流速为1.0mL/min,检
我国放管服改革以"遵循市场规律,激发市场活力"为目标,在教育领域,放管服改革推进了教育机构自主性发展。配合合理的教师激励机制,能够更加有效的发挥放管服对教育改革的促进
为了研究软、硬煤孔隙结构的差异性对煤与瓦斯突出的影响,采用压汞法对桂箐煤矿软、硬无烟煤进行试验研究,分析对比了软、硬煤孔隙结构特征,结果表明:软、硬煤进、退汞曲线均