基于深度强化学习的路径规划方法的研究

来源 :沈阳化工大学 | 被引量 : 0次 | 上传用户:xieyl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,人工智能技术也正逐步融入人们的生产生活中去。移动机器人技术已经在物流、军事和服务等方面取得了阶段性的成果。在机器人领域的发展过程中,路径规划技术作为其中一环,充当着极为重要的作用。路径规划问题是指机器人从起始点到终止点能够自主地找到一条无碰撞的最优路径。传统的路径规划算法包括A*算法、D*算法,它们使用了数学建模的方法进行路径规划。此类方法在环境改变的同时都要重新进行一次机械性计算,运算时间较长。而能够使移动机器人适应环境变化的自主学习的路径规划方法,已逐步被各学者所采用。其中强化学习算法首先被运用到机器人的路径规划问题中去。强化学习是一种自主学习的方法,智能体agent能够适应环境的变化而自主学习到一条最优路径,该种学习方法用时较少。然而常规的强化学习算法仅会对一些简单的环境加以处理。在现实中,智能体所面临的任务都比较复杂,尤其是在动作和状态空间是呈连续状态时,应用传统的强化学习算法无法解决。随着对深度强化学习原理研究的深入,社会各界也越来越关注强化学习和深度学习的研究。本文详细分析了基于值函数近似的强化学习算法和基于策略梯度的深度强化学习算法。针对基于值函数近似的深度Q网络算法和强化学习中的经验回放机制进行了深入探究。发现采用经验回放机制的强化学习算法中,存在优秀的经验样本采样概率较低的问题。因此本文借鉴了之前学者所提出来的优先经验回放的思想。提出了一种基于Immediate奖励值的优先经验回放方法。对智能体agent当前动作的奖励值在进入经验池前设置偏向度,将经验元组数据进行优先级和重要性评估。使智能体能够采样得到奖励值高于标准线的优秀经验样本进行训练。本方法能够较好地解决强化学习过程中,优秀经验样本采样率较低的问题,提升了智能体agent在路径规划过程中的效率。然后在二维栅格环境中验证算法的有效性,发现应用了本文所提出的基于Immediate奖励值的优先经验回放IRPER-DQN算法所规划出的路径长度小于采用改进前的深度Q网络DQN算法。通过对比训练过程中的回合平均奖励值可以看出,本文提出的算法相对于DQN算法,奖励值更高,且收敛性更佳,能够使智能体agent更稳定地获得更高的奖励值。提升了智能体agent的训练效率,能够使其更好地规划出一条距离较短且无碰撞的移动路径。
其他文献
随着经济的发展,“三期叠加”的现象更加严重,企业融资的问题成为重中之重。我国的经济处在转型期,由于信息不对称的存在,银行以及其他金融机构对投融资业务以及贷款业务的开展更加保守。为了积极响应十九大上深化金融改革这一要求,金融业应当对金融产品不断进行创新,开展可持续性的金融服务。供应链金融作为金融市场上新兴金融业务出现,各主体间的纽带即为整条供应链,并依靠核心企业的信用,金融机构更愿意向链上的中小企业
学位
我国目前数量型货币政策工具效用逐渐降低,新的价格型货币政策体系尚未完全建立。中央银行沟通的加入,能够引导公众产生合理预期,进而使我国货币政策传导更为流畅和有效。本文从公众预期模型、利率期限模型以及相关理论中推导出了中央银行沟通影响市场利率和货币供给的理论机理,并且使用2006年4季度~2019年4季度的数据,建立两个VAR模型对其进行实证研究,探究它们之间的动态关系。脉冲响应研究发现:(1)中央银
学位
碳酸二乙酯(DEC)是一种重要的有机合成中间体,可用作羰基化和烷基化试剂、溶剂、锂离子电池的电解液、汽油和柴油的燃料添加剂,广泛应用于化工、医药等领域。在众多合成方法中,酯交换合成碳酸二乙酯的方法由于绿色无污染、操作简便、收率高等优点,被认为是目前最有发展前景的合成路径。目前,文献报道的酯交换反应中的催化剂主要分为两大类:均相催化剂和非均相催化剂。但均存在重复性差、失活快、催化效率不高等问题。本文
学位
近几十年来,配位聚合物(CPs)作为一类优秀的晶体材料,因其可设计性、高孔隙率以及多样的结构而被广泛应用于气体存储和分离、荧光传感、催化、磁性和药物传输等多种领域。它通过无机金属节点和带有O或N供体的有机连接体配位组装而成。其中,尤其是发光镧系金属基配位聚合物(LCPs)材料因其高的色纯度,大的斯托克斯位移,肉眼可见的颜色和相对较长的发光寿命等显著优点受到越来越多科研工作者的广泛关注。本论文首先以
学位
改革开放以来,虽然人们的温饱问题已经逐渐解决,但随之而来的也面临着新的挑战:食品安全问题和食品浪费问题。临期食品作为食品安全问题和食品浪费问题的交织点,由于其具有经验品和信任品的特性,造成消费者对临期食品既有价格上的“偏爱”又有质量上的“担心”。近年来,频繁出现篡改食品保质期和大量临期食品滞销、销毁的事件,反映出我国临期食品市场中的销售和监管方面存在问题,需要对临期食品的定价和监管问题进行深入研究
学位
5G网络技术已经由设想变为现实,人们已经意识到网络带来的便利,大量的设备都加入了互联网,尤其是边缘移动设备数量急剧增长。设备的多样化以及任务需求多样化,产生了传统云计算难以承载的海量边缘数据。移动边缘计算(Mobile Edge Computing MEC)通过提供靠近数据产生地的无线网络接入,在设备侧提供计算、网络、存储和应用服务,解决了云计算架构面临的高时延,核心网压力和移动访问等问题。MEC
学位
随着2019年末新冠疫情的爆发,居民家庭收入的不稳定性上升,许多家庭出现了财务危机,家庭资产配置受到了广泛的关注。目前,我国居民家庭普遍资产配置保守,将大量的资产投放在房产与无风险金融资产,压缩了风险金融资产的持有份额,导致家庭财产性收入不高,难以抵御突发的风险。如何有效的引导家庭配置风险金融资产,平衡家庭资产配置结构,是我们亟需解决的难题。而社会养老保险作为现代社会家庭必不可少的社会保障,它对家
学位
5G技术的强劲崛起使得社交化在线平台发展日趋完善,完善的社交化在线平台逐渐发展为社交—电商为一体,形成社交—电商闭环模式,一批又一批不同领域的达人通过种草、拔草等在线口碑传播信息促进信息流通,提高用户粘性,越来越多的用户参与到社交化在线平台的构建中,不仅促进社交化在线平台的发展,而且用户自身价值在口碑传播过程中也在不断提升。目前,在线化社交平台中的用户基于自己的真实体验,对某一产品、服务及活动等发
学位
三字成语即三个字的成语,是一类特殊的成语,属于多词表达的一种类型。三字成语通常言简意赅,具有多重语义,相比于四字成语有很多不同之处,且多用于日常生活中带有感情色彩的的情景中。在自然语言处理中,三字成语识别逐渐被重视起来,但在识别过程中也存在一些问题:(1)三字成语多出现在口语方面,口语性强,用在书面文章中较少,规范性不高。(2)三字成语的语义典故性强,语法结构比普通词语更加复杂,因此识别效果不是很
学位
随着人们生活和科技水平的提高,图像处理和模式识别取得了巨大的进步。花卉类别识别作为一种典型的细粒度图像识别任务,是计算机视觉和林业信息化领域最热门的研究课题之一。随着人们对花卉识别应用需求增加,将花卉识别算法部署在网站上成为了一项迫在眉睫的任务。传统机器学习的花卉识别算法相对成熟,但是传统的花卉识别方法都是通过专家手动选择多个特征进行分类,面临分类结果准确率较低、泛化能力较弱和分类时间较长等问题。
学位