基于深度强化学习的自动驾驶策略研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yeaGem
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶或称无人驾驶可以有效增强行车安全,提高交通效率,已经成为全球发展趋势。现有的驾驶策略主要基于人工设计的规则和模型,难以应对复杂场景或者突发事故。而深度强化学习是目前人工智能领域的一个前沿研究方向,是一种目标导向的自主学习方法,在许多复杂任务上都取得惊人的成绩,被认为是通往通用人工智能的关键技术。本文的研究目的是在虚拟环境的基础上,使用深度强化学习算法来学习更加智能的驾驶策略,辅助现实场景中的自动驾驶车辆训练测试。本文的主要研究内容如下。首先,本文基于已有的无人车虚拟仿真平台,搭建了一个虚拟环境,用于强化学习训练。该虚拟环境在Open AI Gym环境的基础上实现通用性的接口,能够模拟现实场景中复杂的交通状况。其次,在SAC算法的基础上,本文提出了基于双经验池的SAC算法(Dual Buffer Soft Actor-Critic,DBSAC)。接着,针对自动驾驶任务,本文构建了以深度强化学习为核心的自主学习框架。在该框架下,本文设计了深度强化学习的状态空间、动作空间、奖励函数和神经网络结构。本文设计的车辆自注意力神经网络结构,使用了多头自注意力机制和编码器-解码器架构。最后,本文在虚拟仿真环境的基础上,合理设计了两种自动驾驶场景:直行场景和无保护交叉路口场景,并进行了相应的实验和分析。本文在实验过程中统计了相应的量化指标,结果表明:在两种场景下,基于该自主学习框架均能学习到有效的策略,完成对应场景的任务,并且表现优于传统驾驶策略;在两种场景下,DBSAC算法的收敛速度均优于原SAC算法;在无保护交叉路口场景下,使用车辆自注意力网络一方面加快了策略的收敛速度,另一方面提高了策略的表现水平。
其他文献
“保险+期货”服务农业种植作为新型农业合作模式已成为我国农业市场化改革的重要探索实践。但新型农业合作项目在运行中受到农产品价格不确定、农产品产量不确定、农产品保险补贴收益不确定、项目管理导致收益不确定、竞争者参与导致成本不确定等较多不确定性因素影响,该类项目利用传统净现值进行投资决策存在没有考虑不确定性价值、不关注长期战略投资配置、没有考量投资者选择权的需求等不足。因此,科学的投资决策方法有其重要
实时语音翻译技术作为翻译技术的分支之一,具有非常丰富的应用前景,例如外语视频的字幕生成,国际会议同传翻译等等。然而,不同于相对比较成熟的机器翻译技术,实时语音翻译技术目前面临着巨大的挑战。由语音识别模型,机器翻译模型所构成的传统级联模型,在模型处理延迟、错误传导等问题上具有天然上的劣势。虽然目前端到端实时语音翻译模型可以规避这些问题,但是语音和文本作为两种不同模态的信息,端到端模型处理起来并不容易
服装外观设计是服装设计的核心环节之一,对服装的整体美感与销量有重要贡献。其主要包括服装局部属性设计、服装局部装饰设计、服装整体风格设计三个方面。但是目前基于WGAN的服装局部属性设计方法属性生成效果差;服装局部装饰设计中的图案设计方法又严重依赖设计师,缺乏端到端智能化设计方案;而基于DCGAN的服装整体风格设计方法也存在迁移效果模糊的问题。针对以上关键技术问题,本文开展了如下研究:1.提出了基于改
在司法全球化的背景下,国家与国家签订的人权条约逐日增多。人权问题越来越受到各国的关注和重视。中国作为参与全球一体化发展的大国,不断参与国家事务和国际交流活动,与各国签署的国际人权条约涉及诸多领域。但是,我国宪法没有明确对国际人权条约适用的规定,对国际人权条约适用的规定零散地分布于其他法律法规之中。这一现状与我国法律体系完整性的要求相悖,且极易导致司法判决不统一现象的发生。因此,本文所研究的国际人权
随着我国经济建设的高速发展以及城镇化的快速推进,基础设施建设行业迎来了新一轮黄金发展期,尤其是城市轨道交通行业,正在从大规模、大数量转向高质量、高水平发展,而TOD(Transit-Oriented Development公共交通导向发展)项目正是在这个环境下,掀起了轨道交通时代城市发展的新运动。如何做好TOD项目承发包模式的选择,将很大程度上影响项目实施效果和投资效率。L区在撤市设区和大交通发展
学位
能源是国家经济的命脉之一,智慧能源意义重大,智慧热电作为智慧能源的具体应用,越来越受到行业重视。智慧热电就是在信息化的基础上,进行大数据分析,通过技经算法,找到安全、经济、高效的热电联产运营方式。目前智慧热电的技经算法有很多,但大多都是采用收入-成本的传统算法。传统算法存在结果导向不清晰、容错纠错能力差、信息及时性不足等缺点。这些缺陷阻碍了智慧热电的广泛应用,因此,迫切需要研究一个合适的新算法以满
学位
近年来全球的信息化发展加速,制造业正从数字化阶段向网络化阶段加速转变,而传统的报表工具偏向于对具体业务的定制,且开发维护成本高昂,无法适应如今制造业多变的需求,新的具有高扩展性和灵活性的报表工具显得尤为重要。本文首先结合生产报表的背景和发展历程进行分析,提出了本文的研究内容和意义。然后分析了报表数据处理app的功能性需求和非功能性需求,并对app进行了总体设计,根据架构设计将app分为表现层、平台
EPC(Engineering、Procurement and Construction)总承包是国际上比较常见的一种工程项目承包模式,我国近十年来在建设领域越来越多地采用EPC总承包,并开始在道路工程领域逐步推广。道路工程由于具备投资大、涉及面广、施工周期长、工程复杂等特点,存在成本控制难度较大的问题,而EPC模式进一步扩大了总承包方成本控制难度,如何控制好成本并实现较好盈利是总承包方项目管理的