强化学习及其在MAS协同概念设计中应用的研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:gaolch004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习中一个重要的研究领域。它强调在与环境的交互中学习,通过环境对不同行为的评价性反馈信号来改变强化学习系统的行为选择策略以实现学习目标。相比于监督学习、动态规划等研究方法,强化学习不需要教师信号,也不需要环境的状态转移模型,因此对于求解复杂的优化决策问题具有广阔的应用前景。强化学习在理论和算法研究方面已经取得了许多成果,成为求解序列决策优化问题的一类有效方法。从现代产品设计的特点来看,不同领域、不同地域的专家协同完成设计任务,已经成为一种普遍的设计方式。同时,计算机网络技术的快速发展,也为异地协同设计提供了有力的支持。在实际需求和信息技术快速发展的推动下,产品协同设计已经成为产品设计领域的研究热点。然而,目前关于协同设计的研究主要集中在详细设计阶段,对协同概念设计研究较少。由于概念设计是设计过程中最重要、最具创造性的阶段,因此研究协同概念设计的相关理论与技术具有深远的意义。应用强化学习方法求解协同概念设计中的有关问题,是协同概念设计研究的一个新课题。本文主要研究了采用多步信息更新值函数的多步Q学习算法、能够有效平衡智能体(Agent)选择动作时面临的新知识探索与当前策略遵循的模拟退火Metropolis准则和能够提高经验利用率、加快收敛速度的最小二乘强化学习方法,构建了基于多智能体系统(MAS)的协同概念设计系统,并将强化学习应用到该系统的任务调度和方案优化中,旨在深化强化学习在理论与应用方面的研究,促进协同概念设计技术的发展。论文所做的主要工作和研究成果如下:首先,提出了基于模拟退火Metropolis准则的多步Q学习算法。针对经典的Q学习算法收敛速度慢的问题,从两个方面进行了改进:一是改进了一步更新策略,单纯的一步更新不能充分利用经验信息,因此提出了采用多步信息更新值函数的多步Q学习算法;二是在多步Q学习算法的动作选择中引入了模拟退火中的Metropolis准则,较好地解决了Agent选择动作时面临的新知识探索还是当前策略遵循的关键问题。其次,提出了离策略的最小二乘Q(λ)算法和在策略的最小二乘SARSA(λ)算法,以及各自的改进递推算法。针对经典的Q(λ)和SARSA(λ)算法存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态—动作对值函数的最小二乘逼近模型,推导了逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根据递推最小二乘参数估计方法,给出了各自的改进递推算法。由于最小二乘算法实际上是构造了强化学习问题的经验模型,因而能够加快收敛速度。再次,通过分析复杂产品协同概念设计过程的特点,提出了协同概念设计的集成模型,进而提出了基于MAS的协同概念设计系统的层次化联邦结构,设计了系统中管理Agent和设计Agent的结构。在这两类Agent中分别实现了任务调度、冲突消解、方案评价与优化、智能设计等功能。提出了适用于复杂产品概念设计的信念型承诺,给出了Agent的形式化表示,详细讨论了基于信念型承诺的Agent协作机制。该协同概念设计系统的建立为研究强化学习在其中的应用奠定了基础。最后,针对协同概念设计系统管理Agent中的任务调度和方案优化问题,提出了基于强化学习的求解方法。任务调度问题是协同设计的重要内容之一,目前的方法大多存在算法效率较低、收敛于局部最优解等缺点。本文建立了调度问题的马尔可夫决策过程(MDP)模型,从理论上证明了采用强化学习求解调度问题的可行性,给出了基于Q学习和Q(λ)学习的任务调度算法,从而为有向无环图(DAG)调度提供了一种新解法。现有的概念设计方案优化方法存在组合爆炸问题,因此难以对组合出来的方案逐一评价并获得最优方案解。本文引入了状态之间距离的概念,将方案优化问题建模为MDP模型,给出了基于Q学习的方案优化算法,应用实例表明了该方法的有效性。
其他文献
随着线性矩阵不等式技术在线性定常系统鲁棒分析与综合研究中的成功应用,国内外许多学者越来越倾向于将线性时滞系统的鲁棒分析与综合问题归结为线性矩阵不等式的求解问题。
基础教育课程改革正在全国各地热烈进行,笔者以“实施新课程,教师是课程资源的开发者、创造者”为己任,不断更新教育观念,用新的课程理念与老师们一起对“课堂教学如何完成新课程
目的:探讨同种异体肾移植的配合经验。方法:回顾性分析62例肾移植手术配合的护理情况。结果:本组肾移植一例病人术后渗血,二次手术修补后因下床活动再次吻合口崩裂而摘除供肾,另3
目的 探讨双枚钛合金加压空心钉治疗高龄股骨颈骨折患者的临床疗效.方法 2002年1月~2003年6月对75岁以上高龄股骨颈骨折患者11例,施行C臂机监视下闭合复位双枚钛合金加压空心
患儿,女,24d新生儿,3.5kg。因鼻阻20多天,四肢抖动20min来我院急诊。患儿生后3d即出现鼻阻,无发热、咳嗽、流涕,在外院治疗有所减轻,但仍时有鼻阻。入院当日来我院门诊给予1%氯麻液滴
近年来,随着潜艇的军事战略地位的日益提高,世界上一些主要军事大国都加强了对潜艇的研究工作。由于潜艇在水下的活动范围有限,同时潜艇又必须具备良好的操纵性能,既要保证定深,定
室性心律失常被认为是心源性猝死的独立危险因素之一。顽固性室性心律失常在临床上常见,是指经2~3种抗心律失常药物治疗无效或恶化,除外电解质紊乱与药物所致的室性心律失常。除
在工业过程中,许多对象具有滞后特性。由于纯滞后的存在,使得系统的超调量变大,调节时间变长,滞后过程因此被公认为较难控制的对象。从上世纪50年代末以来先后出现了很多关于