监督式强化学习在路径规划中的应用研究

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户：wlflfxzq45

【摘要】

：

机器学习分为监督式学习、非监督式学习和强化学习。由于强化学习在学习收敛方面速度较慢,难以在实际控制系统中大规模应用。为解决以上问题,提出一种基于标称控制的监督式强化学习算法,并将其用于机器人的路径规划当中。在训练初始阶段引入导师的先验知识,以增加系统的学习效果,同时逐步弱化导师的监督指导作用,发挥强化学习探索优化的优势,让机器人尽快找到最优路径。针对机器人的路径规划问题,提出其监督式学习算法,进行

【作者】

：

曾纪钧梁哲恒

【机构】

：

广东电网有限责任公司信息中心,中国南方电网公司信息化评测重点实验室

【出处】

：

计算机应用与软件

【发表日期】

：

2018年10期

【关键词】

：

监督式强化学习路径规划

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

ASP技术在全文检索系统中的应用

介绍了一种基于Windows NT平台、ASP技术和Index Server服务器的全文检索系统解决方案，可广泛应用于各类全文检索系统的设计与实现中。

期刊

ASP全文检索系统数据库信息检索B/S模式IntexServer服务器WINDOWSNT平台ASP full-text search dat

ESPP:基于SDN的节能路径规划系统

基于Fat-tree拓扑的数据中心网络中存在一系列保证通信可靠性的富连接。这些富连接导致网络低负载情况下有大量设备处于空闲状态,而传统网络无法在保证网络可靠性的同时对设备进行调度。为解决该问题,设计ESPP:基于软件定义网络SDN(Software Defined Network)的节能路径规划系统。客户端通过控制器收集网络信息,计算节能路径,调节数据流向,调度物理设备。在Mininet搭建的模拟

期刊

数据中心网络Fat-tree拓扑SDN节能路径规划Data center networkFat-tree topologySDNEnergy-sa

尖晶石型LiMn2O4电极材料的制备

以LiNO3和MnO2为原料采用高温固相法制备了LiMn2O4,通过改变原料配比、反应温度、时间和方式等,由X-射线衍射分析得出使用这两种原料制备尖晶石型LiMn2O4的最佳温度条件、原

期刊

LIMN2O4尖晶石结构电极材料锂离子电池LiMn2O4 spinel structure cathode material rechargeab

铺膜机镇压辊轴承的结构改进

文中对地膜铺膜机镇压辊轴承结构进行了研究,开发出一种新型的铺膜机镇压辊密封轴承。该轴承改进了密封结构,优化了润滑结构,避免了轴承早期损坏,延长了轴承使用寿命,更好地

期刊

外球面球轴承铺膜机镇压辊密封润滑

慢性化脓性鼻窦炎的臭氧治疗

<正> 鼻窦炎常见,常由需氧菌及厌氧菌混合感染致成,尤其在有并发症者中更常见有厌氧菌感染,厌氧菌可使细胞膜的磷脂和脂蛋白破坏。该作者观察132例各型慢性化脓性鼻窦炎患者,

期刊

慢性化脓性鼻窦炎臭氧治疗

IMRF亚太中心正式运行

9月19日，经过六年酝酿筹备的国际海上人命救助联盟（IMRF）亚太交流合作中心正式运行。IMRF亚太交流合作中心设在位于上海的交通运输部东海救助局。

期刊

亚太中心交通运输部海上搜救海运事业

动物身上的奇妙装置

一个黑暗的晚上，一批美国空军专家在沙漠里试验一种操纵导弹击中目标的新装置。这种装置是为了跟踪敌方发动机的热能而设计的。现在它正在追踪30英尺外在黑暗中挥动着的手电光

期刊

装置奇妙动物美国空军发动机

聚焦物流顽症（一）——流通成本过高

近日，央视财经频道连续七天推出系列报道，密集聚焦物流领域诸多久治不绝的乱象和怪象，包括进城难、天价过路费、乱罚款、进场费以及重复征税等等，探讨这些物流顽症对于物价、对于

期刊

流通成本物流聚焦物价指数过路费乱罚款消费者CPI

壳聚糖-二氧化硅多孔复合材料用于甘蔗糖浆的脱色净化

以冷冻干燥法制备出壳聚糖-二氧化硅多孔复合材料。将所得复合材料进行SEM、N2吸附-脱附分析和TEM表征，并对其进行甘蔗压榨清汁脱色净化的活性测试。结果表明，制备出的复合材料

期刊

壳聚糖二氧化硅冷冻干燥法多孔复合材料甘蔗清汁脱色Chitosan silica freezing method porous composit

基于SDN的配电网通信动态带宽分配算法

针对配电网通信中存在的业务传输灵活性差、资源利用率低等问题,提出一种基于软件定义网络的自适应动态带宽分配算法。该算法对节点状态信息的收集与分析;通过软件定义网络控制器进行模块化控制并计算出最优带宽;根据资源分配情况进行休眠节能。该算法采用不同授权调整策略进行开发。实验结果表明,相比于传统混合TDM/WDM-EPON动态算法,该算法降低中低负载下的分组延迟以及平均队列深度,小负载节能百分比可达93.

期刊

软件定义网络动态带宽分配配电网Software defined network （SDN）Dynamic bandwidth allocationDi

监督式强化学习在路径规划中的应用研究

与本文相关的学术论文