专家知识辅助的强化学习研究及其在无人机路径规划中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:grand1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技不断发展进步,无人机的应用范围逐渐扩大,这无形中对其智能化提出了更高的要求。未来的无人机应该通过与环境交互自主完成障碍躲避、路径规划等常规任务,而不是仅仅依赖于手动编写的程序。强化学习算法是实现自主化的一条可行技术路线,并已被用于游戏及其它一些人工较难掌控任务的学习中,然而,其在训练时较大的在线运算压力及较长的交互过程阻碍了它更为广泛的应用,特别是在无人机领域。针对此种情形,本文以强化学习算法及其在无人机路径规划中的应用为主要研究内容,尝试在强化学习开始前赋予智能体特定的专家知识来提高学习算法的实用性。研究主要从以下两方面展开:一是结合专家对任务的了解,通过引入批量递归最小二乘或构造特殊基函数来降低对称任务中学习的运算复杂度;二是从迁移的角度出发,重点研究在新任务强化学习中复用源任务示教轨迹所含专家知识的方法,并进一步探索了示教知识迁移辅助的强化学习在无人机路径规划中的应用。本文的主要研究工作和贡献归纳如下:1、系统综述了强化学习算法及其应用现状,着重介绍了引入专家知识以弥补其白板学习盲目性的研究,特别是与迁移算法相结合的部分;总结了迁移在强化学习中应用的难点,并提出从简单源任务的示教轨迹中挖掘并迁移知识到新任务中加速强化学习的框架。2、针对在Actor-Critic结构强化学习算法中智能体用最小二乘法估计自然梯度的运算量是估计普通梯度数倍的问题,本文提出利用批量递归的思想来有效降低智能体在线运算压力。强化学习过程中,智能体可以在交互数据达到专家设定的数量之后再用递归最小二乘法估计自然梯度,从而明显减少了梯度估计次数;与此同时,由于每次梯度估计更为准确,智能体可以适当增大策略参数更新步长以保证算法收敛速度不受明显影响。总之,批量递归使得智能体能够在可接受的在线运算压力下灵活处理交互数据。3、针对状态动作空间存在对称性的任务,本文提出一种能够近似对称状态值函数及策略的特殊基函数。专家在构造基函数时,同时考虑中心点及其对称位置信息从而使基函数的值在对称位置自然相等,进而使得状态值函数在对称状态也相等。然而,由于特殊基函数数量与常规基函数相比较少,强化学习速度明显加快且运算压力显著降低。4、由于源任务示教轨迹数量有限且单个轨迹所含数据较多,用机器学习分类较难,本文提出结合动态运动基元与卷积神经网络进行分类的方法。算法首先将示教轨迹视作独立的多维时间序列并用不同动态运动基元的参数依次作为各个维度的表征;之后,用改造的卷积神经网络发掘基元参数序列的结构变化信息进行分类;最后,综合各维度分类情况以确定轨迹类别。5、针对专家较易示教简单任务而强化学习适于解决较难问题的情况,本文提出多种在较难任务强化学习中复用与之相关源任务示教轨迹所含专家知识的方法。本文尝试从多个角度挖掘示教轨迹所含专家知识,并经由智能体空间或任务间关系映射迁移到新任务中,通过引导学习的探索过程、鼓励访问某些状态或直接作为选择动作的初始策略等方式加快新任务的学习速度。6、为在无人机路径规划中应用强化学习,本文提出用重构的示教轨迹来引导智能体探索的方法。专家首先示教多个参数已知的任务从而赋予智能体多种避障技能;当遇到相似情形时,智能体可通过任务间的构造关系泛化出新的避障轨迹;最后,依照推荐轨迹次序构造出势函数并用Q学习训练得到较好策略。算法减少了智能体学习失败的次数,验证了强化学习在无人机领域应用的可行性。
其他文献
流态化复合载体生物膜(FCBR)工艺使用中国石化石油化工科学研究院专利复合载体,可使生化反应器中的微生物浓度较常规流态化生物膜工艺增加近1倍,有效提高了生化处理能力和抗
<正>国土资源部近日公布《中国城市地价状况2009》,报告首次提到了与"租售比"相似的"租价比"概念,并明确表示,从"租价比"这一概念角度分析,国内热点城市的住宅市场已经出现了
【正】白血病患者易合并外源性及内源性感染,严重影响治疗的成败。为探讨白血病患者医院感染的特点、有关危险因素及防治措施,本文就1992~1994年间106例白血病患者合并院内感
笔者曾看到过一篇名为《钢琴弹奏技术与技巧不是一码事》的微信文章,觉得有道理,就转发到几个微信群。没想到引起了激烈的争论,有人认为此文缺乏论据支撑,空洞且言之无物,只
1942年5月延安文艺座谈会召开时,黎辛任延安《解放日报》的文艺编辑,后又经手发表了毛泽东《在延安文艺座谈会上的讲话》。
首先通过溶胶凝胶法制备了TiO2粉末和掺杂不同稀土离子的TiO2粉末,并通过X射线衍射谱(XRD)对制备的样品结构进行了表征,结果表明,制备的TiO2粉末为锐钛矿结构;稀土离子的掺杂
本文在提出目前高职院校商务英语实践教学中存在的若干问题的基础上,探究这些问题的改革路径,以期给高职院校的教学实践活动的改革有所启示。
以衡阳市某铅锌尾矿库的矿渣作为土壤基质,泥炭土、红壤、蛭石作为改良剂,夹竹桃作为受试植物,进行室外盆栽试验,考察了3种改良剂对夹竹桃生长、重金属(Pb、Zn)富集转移能力
<正> 关于同系物中有无同分异构体。或者同分异构体之间是否为同系物的问题,是教学中必须解决的问题。 例如,初学有机物,很多同学会错误地认为戊烷的3种同分异构体(即正戊烷
近年来,现代物流市场发展迅速,客户的运输需求越来越高,各种运输方式之间竞争激烈,传统的铁路货运模式已经难以满足现代货运市场的需求,铁路部门也已经开始实施货运改革制度,提出简化铁路货物运输流程,为客户提供全程物流服务的改革思路。在这样的背景下,论文对铁路货运站的货运作业流程进行研究,以便提高铁路货运作业的运作效率和服务质量及延伸铁路货运服务,这对提升铁路货运在运输市场中的核心竞争力有着现实意义。首先