基于强化学习的机器人觅食问题研究

被引量 : 0次 | 上传用户:tiger10208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人对环境的适应程度决定了其智能的高低,在复杂非结构环境中,机器人的适应能力受到严重挑战,这要求机器人必须具备学习能力,强化学习机制以其优秀的自适应性和对学习条件的弱要求,为机器人的行为学习提供了途径。针对觅食行为具有广泛的代表性和较高的实际应用价值,本文利用强化学习机制对机器人的觅食行为学习作出了一系列研究。强化学习算法的关键问题是算法的收敛性以及收敛速度,这决定了机器人觅食学习的成败和学习速度的快慢。文中提出将觅食行为分解成普通的行为集成块,极大地减小学习空间,建立标准的马尔可夫决策过程(MDPs),同时加入一定的先验知识加速学习过程。利用Q学习进行单个机器人觅食学习的仿真实验结果表明,分解任务和加入先验知识的措施对在线学习速度的提升效果明显。针对多机器人系统相比单个机器人具有的并行性、鲁棒性等特点,文中提出利用平均报酬的强化学习算法诱导多机器人产生协作觅食行为,并提出一种基于Schweitzer变换的相对值迭代(RVI)强化学习(RL)算法。和单个机器人觅食学习的情况类似,建立多机器人系统觅食的MDPs模型,将新算法应用于多机器人觅食学习。和Q学习对比的仿真实验结果表明,改进的RVI算法有效且具有较高的可靠性。
其他文献
山区幼儿园就其质和量上都跟不上发达地区,所以要有自己的操作模式和操作理念,在思想上要跟上时代的步伐,在模式思路上要紧扣山区。由于受经济、交通、自然环境、城乡差距等
随着网络技术和计算机技术的飞速发展,不仅改变了国际贸易模式,而且推进了国际贸易电子化的发展。中小企业作为我国市场经济的重要组成部分,在这种大趋势下,如何节约企业成本
本文首先分析了PPP融资模式的内涵和组织机构,阐述了PPP的典型模式及其适用情况。在此基础上,对该项目融资模式在我国城市基础设施建设项目中的应用优势进行了剖析。最后探讨
目的研究多巴反应性肌张力障碍患者的临床特点。方法对16例家族性患者和10例散发性多巴反应性肌张力障碍患者进行病史采集、神经系统体格检查和CT或MRI检查,所得数据应用SPSS
<正>"1924年兄弟决裂后,鲁迅花了不到1000元(约今11万元)买下阜成门内西三条的一套四合院。它占地面积约500平方米。南房三间是会客室兼藏书室;院内东西各一间厢房;北屋三间,
个人信息是指个人的姓名、性别、年龄等可以直接或间接识别的信息。制定个人信息保护法对保护基本人权有重要意义,也有利于促进电子商务和国际贸易的发展。
通过认知参照点来构建认知语境是人类具有的一种基本认知能力。它是认知语境的建构和发展的开端和基础,对言语交际和非言语交际起到非常重要的作用。本文以关联理论为指导,对
目的探讨术毕前应用地佐辛联合氟比洛芬酯预防腹部腔镜患者全麻苏醒期躁动的效果。方法选取择期行腹部腔镜手术(包括外科中上腹腔镜手术及妇科盆腔腔镜手术)患者90例,年龄35~
服装色彩有着丰富的文化内涵,对服装认识的知觉选择中属于首位。服装色彩与款式、面料的结合,能产生千变万化的服装风格。服装色彩最终决定着设计的成败,同时色彩的变化是投
目的:构建适用于公立医院的财务风险预警综合评价模型,据此为公立医院的财务管理与风险管理提供决策依据;方法:运用主成分分析法对影响到公立医院财务风险的相关指标进行处理