基于模糊小波网络的强化学习及其在多机器人决策策略中的应用

来源 :高技术通讯 | 被引量 : 0次 | 上传用户：tshy65655

【摘要】

：

给出了一种基于模糊小波神经网络（FWNN）的强化学习方法，并研究了应用该方法解决多机器人足球比赛中的决策策略问题。首先，使用FWNN来实现强化学习状态空间到动作空间的映射，从而解

【作者】

：

段勇李程徐心和

【机构】

：

沈阳工业大学信息科学与工程学院,东北大学信息科学与工程学院

【出处】

：

高技术通讯

【发表日期】

：

2013年4期

【关键词】

：

强化学习(RL) 模糊小波神经网络(FWNN) 机器人足球比赛动作选择决策 reinforcement learning （RL） fuzzy wavel

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

给出了一种基于模糊小波神经网络（FWNN）的强化学习方法，并研究了应用该方法解决多机器人足球比赛中的决策策略问题。首先，使用FWNN来实现强化学习状态空间到动作空间的映射，从而解决大规格或连续状态空间所导致的学习速度过慢甚至难以收敛等问题。然后，研究了提出的方法在机器人足球比赛的复杂决策策略学习中的应用，证明机器人球员能够通过学习掌握根据比赛状态信息选择合理动作的能力。最后，通过实验验证了该学习方法的有效性，它能够满足机器人足球比赛的需要。

其他文献

继往开来与时俱进再创我校学生工作新局面

学生思想教育管理工作是高校工作中的一项重要内容,学生处是承载这一职责的重要职能部门.文中从历史、现实和发展的角度全面阐述了河北农业大学学生处的职能、工作状况、存在

期刊

学生工作河北农业大学教学管理人才观学生管理

考虑SVC数据特性的P2P流媒体分片算法

为解决P2P流媒体系统在异构环境下传输和共享视频数据的问题，对广泛应用于基于可扩展视频编码（SVC）的P2P流媒体系统中的等时长分片算法进行了研究，研究结果表明，该算法对SVC数据特

期刊

分片算法P2P流媒体可扩展视频编码(SVC)异构segmentation algorithm P2P streaming scalable vide

试析风险投资的运作流程

风险投资是以冒高风险、追求高收益为特征的一种新型投资行为,通过分析风险投资的4个运作阶段:选择投资项目、谈判进入风险企业、参与风险企业管理、退出风险企业来揭示风险

期刊

风险投资运作流程退出机制risk investment operation flow withdraw mechanism

水泥土挤密桩加固营业线路基的施工安全防护

京秦铁路提速改造，采用水泥土挤密桩加固路基基床，提高基床承载能力。在4 h的“天窗”时间內进行挤密桩作业，到点必须恢复至原160 km/h列车运行。文章介绍施工时的安全防护措施

期刊

水泥土营业线路基基床挤密桩施工安全路基加固防护措施铁路工程

果树栽培学双语教学的探索

为给果树栽培学双语教学改革积累经验,结合本科生双语教学任务从多方面进行了尝试和探索.介绍了实施过程中所采用的教学模式及效果、学生对双语教学的反馈信息以及目前实施双

期刊

果树栽培学双语教学教学改革河北农业大学

考虑稳定性要求的特征选择方法

为了提高特征选择的稳定性和降低因样本数据变化引起的选择结果波动，提出了一种考虑稳定性要求的过滤式特征选择方法。不同于集成特征选择等现有的增强稳定性方法，该方法将特征

期刊

特征选择相关性冗余性稳定性高维数据feature selection relevance redundancy stability high-

面向复杂产品数据管理的适应性模型研究

为了能够满足复杂产品研发过程中的不断迭代变化的产品数据管理需求，建立了面向复杂产品数据管理的适应性模型（APDM），给出了该模型的元模型的形式化定义，在此基础上建立了该模型的

期刊

复杂产品数据管理适应性模型可扩展标记语言(XML)异构系统接口complex product data management adaptive m

农机运用管理学课程教学体系研究

从市场经济的角度和农机运用管理学课程的性质,分析探讨了课程培养人才的规格,在此基础上提出了教学内容的改革方案,并对教学方法以及教学资源的合理使用进行了探讨.

期刊

教学改革市场经济农机运用管理

我国独立审计如何应对WTO的挑战

加入WTO在给我国独立审计带来前所未有的机遇的同时,也带来了巨大的压力和挑战.如何趋利避害,从审计目标、技术和审计准则等方面采取相应的对策,促进我国注册会计师行业在新

期刊

入世独立审计审计风险审计准则

LTE系统中采用干扰消除技术的TDOA定位方法

为长期演进计划（LTE）通信系统提出了一种采用干扰消除技术来改进信号到达时间差（TDOA）的移动台定位方法。该方法针对移动台在靠近小区中心时接收邻近小区基站信号会受到服务基站

期刊

无线定位到达时间差(TDOA)干扰消除非视距(NLOS)wireless location time difference of arrival （T

基于模糊小波网络的强化学习及其在多机器人决策策略中的应用

与本文相关的学术论文