基于RPkNN-Sarsa(λ)强化学习的机器人路径规划方法

来源 :计算机应用研究 | 被引量 : 11次 | 上传用户:calmisen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于kNN-Sarsa(λ)强化学习的机器人路径规划方法虽然收敛速度快,但该算法容易陷入局部最优值,且未考虑环境信息的不完全可观测性。为此,设计了一种随机扰动(random perturbation)kNN-Sarsa(λ)强化学习算法,利用Bayesian规则对传感器探测信息的不确定性进行了处理,建立了基于栅格地图的仿真环境模型。仿真实验结果表明,该方法不仅收敛性好,能有效缓解kNN-Sarsa(λ)算法易陷入局部最优的现象,且在传感器探测信息不确定的情况下仍能搜索到最优路径。
其他文献
在工程项目群实施阶段框架模型构建的基础上,基于分层赋时着色Petri网定义了工程项目群实施阶段工作流模型。借助CPNTools仿真平台,以某工程项目群实施阶段为例进行了实例建模
针对网络化控制系统中模糊控制器的量化因子和比例因子采用传统经验方法难以整定的问题,提出了一种改进量子粒子群(IQPSO)算法对模糊控制器量化因子和比例因子进行优化。该方法将ABC算法中的搜索算子作为变异算子引入到QPSO算法中,使得IQPSO算法较好地克服了QPSO算法保持种群多样性差容易早熟收敛的缺陷,并以ITAE指标作为IQPSO算法的适应度函数对模糊控制器进行优化。典型工业过程仿真结果表明,
漂移分析的基本定理存在缺陷:条件过严、证明有误且不够严格等,而这些缺陷一直未见指出。鉴于该定理是漂移分析的核心和理论基础,很有必要加以严格化。指出了该定理的不足之处,以测度论为工具,对该定理进行了适当的修正与改进,并且给出了一个新的严格的证明。
针对军事任务计划中任务执行时间与资源的相关性,引入多模式概念,定义了多模式军事任务计划模型。模型假设每个任务有多种不同的执行模式,每种模式对应不同的资源组合和执行时间。引入多模式必然增加了模型求解的复杂性,因此,设计了一种基于遗传算法的多模式军事任务计划求解算法。算法引入优先基因交叉算子和基于局部搜索的变异算子,同时引入了基于精英保留策略的精英辅助群体机制,保证了算法的求解效率。最后,通过仿真算例
采用近似动态规划(ADP)方法对钢铁物流运输过程中的车辆调度问题进行了分析,设计了车辆和运输货物的状态向量空间、动作向量空间等,充分考虑运输成本和能力约束,建立状态转移函数、目标函数,并对近似动态规划算法进行改进。在基于决策后状态的ADP算法的基础上,采用Boltzmann探索策略对所有的状态空间进行遍历,避免局部最优和低效问题。通过对比实验,比较Q学习算法、基于决策后状态的ADP算法以及采用Bo
为解决民航应对突发事件时无法快速生成应急决策方案的问题,采用语义业务流程管理(SBPM)的思想,运用语义标注的方法,给出了民航应急救援过程的结构约束定义方法和语义模型的建立过程,实现了民航应急救援业务流程的语义化。该模型在有效规范应急救援行为、协调组织救援单位关系的同时,为应急救援方案的自动生成提供了方法支撑。
针对大规模本体映射中存在查全率和查准率不高的问题,提出了一种新的基于参考点的大规模本体分块与映射的方法。该方法的主要思想是用参考点来指导分块,并同时对待映射的两个大规模本体同时分块,即联合分块。首先对大规模本体进行预处理,将本体中的实体名称归一化并将其表示成本体树的形式,然后采用一些简便的方法找到参考点,最后以参考点为聚类中心对两个本体树的概念进行聚类,并同时实现块映射。理论分析和实验结果表明,该
设计航天控制系统是一个复杂的过程,涉及需求设计、编码、测试等一系列的流程,若能在需求设计阶段发现错误,那么能减少不少的工作量。针对这一问题,提出了一种分析控制软件需求的方法和一个名为SP-ARDL的建模语言,并制作了一套SPARDL工具。SPARDL可以描述周期性的控制系统,首先将需求文档转换为SPARDL模型,且提供了图形化的表示方法;然后运用原型生成技术去仿真系统的行为,进一步分析需求的准确性
针对现有多标签数据集转换方法无法有效利用标签间的语义相关性和共现性知识,以及转换得到的数据集相对于问题规模偏小等问题,提出了一种新的多标签数据集转换方法 RAPC-W(ranking by all pairwise com-parision based WordNet)。该方法将标签对从原来的两对扩展到四对,增加了划分后数据集的规模。另外,引入了外部数据源WordNet,较好地考虑了标签语义相关性
AES密码是目前主流应用的加密算法,研究了在面积优化的同时兼顾加密速度的解决方法。根据字节代换的要求和特点,S盒变换采用16×16位的空间预存储置换表,通过O(1)查表效率即可实现Sub Bytes变换。将伽罗华域上所有元素的两倍先存储在一张表格中,相应运算只需要通过查表和相加就可以完成,避免了有限域的乘法运算,有效减少了运算次数。密钥扩展是独立于加密算法本身的一个特殊模块,采用上升沿有效的时钟控