多机器人搬运系统的作业分配研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yuyugugu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在某些现代化物流和生产加工等环境中,存在一种具有多个智能机器人(或手臂)协同工作的搬运系统。机器人连续和高速的运转会导致其传动装置过热疲劳,发生故障甚至烧毁。因此,如何对搬运系统中的机器人进行合理的作业分配,避免单个机器人的过度疲劳,从而提高系统的工作效率、稳定性及安全性,是一个重要研究课题。通常此类作业分配问题可建模为离散事件动态系统(DEDS)领域内较为普遍的Markov决策过程(MDP)来研究。论文根据系统特点,首先建立了两机器人搬运系统作业分配的MDP模型。理论上,其优化问题可通过数值迭代或策略迭代等理论计算方法来求解。但是,由于系统的状态混杂性(hybrid),且状态空间巨大,理论计算方法需进行大量的矩阵运算,实际中往往不可行。因此,论文重点研究运用强化学习方法来解决这一困难。一方面,论文在性能势理论框架下,以Q学习为基础,研究了两机器人搬运系统的作业分配问题。通过对搬运系统模型特征的分析,提出对等状态-行动对(SAP)的概念。另外,考虑到机器人发热量为一连续状态变量,文中采用小脑模型关节控制器(CMAC)神经网络作为Q值函数的逼近器,设计了一种基于CMAC和对等SAP的Q学习算法。实验结果表明,此方法不仅克服了一般Q学习算法不能用于具有连续状态变量的系统优化问题的缺点,而且在一定程度上缓解了“维数灾”问题,并提高了学习系统的优化性能。另一方面,论文根据机器人的功能和任务均相同这一特性,运用性能势概念,设计了一种适于折扣或平均准则的多Agent Q学习算法。讨论了多Agent系统中强化学习的几个关键问题,如行动选择、报酬函数定义及Agent的信息交互等。最后,运用仿真例子验证了该算法在解决这种对等Agent系统的学习问题时的有效性,仿真结果也说明,适当的学习交互能提高算法的学习效率。
其他文献
选播是一种新型的网络服务,选播给用户的期望是通过一个选播地址就能访问到该地址所表示的一组服务器中对用户来说距离最近的一个。选播的应用空间非常广阔,但是,它的实现还
智能体(Agent)及多智能体系统(Multi-AgentSystem,MAS)的理论与应用是计算机科学的研究热点之一。RoboCup(RobotWorldCup),即机器人世界杯足球锦标赛在实时异步,有噪声的对抗环
流媒体技术是人类传播科技的一次重大革新,它使互联网传播多媒体信息成为现实。传统的流媒体系统是基于C/S模式的,其服务性能有限,并不能满足实际应用的需求,大量用户的加入
随着网络技术的飞速发展,绝大多数的信息资源已经不再局限于半结构化的格式,出现了各种非结构化形式提供给使用者。各种信息资源迅速增加,不同格式、不同时期,不同应用等异构
资源定位是P2P网络的核心问题之一,也是P2P网络研究的热点。资源定位机制直接关系到P2P应用系统(例如P2P文件共享系统等)的性能和可扩展性。P2P的资源定位模型,按照网络拓扑
信息技术的快速发展使获取数字信息更加简便,但同时也带来了多媒体信息的非法复制、篡改等一系列网络信息安全问题,人们开始注重保护知识产权,所以产生了数字水印技术。本文
网格技术的发展,为信息资源的共享提供了更加完善的手段,企业在信息资源共享的同时也要阻止非授权用户对企业敏感信息的访问。访问控制的目的是保护企业在信息系统中存储和处
随着城市交通网络上各种传感器技术的快速发展,人们可以自动地采集并保留路网上大量移动对象产生的交通数据流信息。管理和分析数据流,并从中获得有用信息及随时间演化规律以支
图的标号问题是图论中一个比较新的课题,它可追溯到1950年信号带宽的优化问题:源于主要的非零数字信号通常位于一个比较窄的带宽中。1966年Rosa给出了图标号的一个新的概念--图
鞋楦是制鞋工业中一个重要模具,各种式样的鞋都依赖于鞋楦,鞋楦的生产制造水平在鞋产业中起着非常重要的作用。面对鞋产品日益增长的多变需求,传统的作坊式生产已不能满足需要。