论文部分内容阅读
强化学习是机器学习中一个重要的研究领域。它强调在与环境的交互中学习,通过环境对不同行为的评价性反馈信号来改变强化学习系统的行为选择策略以实现学习目标。相比于监督学习、动态规划等研究方法,强化学习不需要教师信号,也不需要环境的状态转移模型,因此对于求解复杂的优化决策问题具有广阔的应用前景。强化学习在理论和算法研究方面已经取得了许多成果,成为求解序列决策优化问题的一类有效方法。从现代产品设计的特点来看,不同领域、不同地域的专家协同完成设计任务,已经成为一种普遍的设计方式。同时,计算机网络技术的快速发展,也为异地协同设计提供了有力的支持。在实际需求和信息技术快速发展的推动下,产品协同设计已经成为产品设计领域的研究热点。然而,目前关于协同设计的研究主要集中在详细设计阶段,对协同概念设计研究较少。由于概念设计是设计过程中最重要、最具创造性的阶段,因此研究协同概念设计的相关理论与技术具有深远的意义。应用强化学习方法求解协同概念设计中的有关问题,是协同概念设计研究的一个新课题。本文主要研究了采用多步信息更新值函数的多步Q学习算法、能够有效平衡智能体(Agent)选择动作时面临的新知识探索与当前策略遵循的模拟退火Metropolis准则和能够提高经验利用率、加快收敛速度的最小二乘强化学习方法,构建了基于多智能体系统(MAS)的协同概念设计系统,并将强化学习应用到该系统的任务调度和方案优化中,旨在深化强化学习在理论与应用方面的研究,促进协同概念设计技术的发展。论文所做的主要工作和研究成果如下:首先,提出了基于模拟退火Metropolis准则的多步Q学习算法。针对经典的Q学习算法收敛速度慢的问题,从两个方面进行了改进:一是改进了一步更新策略,单纯的一步更新不能充分利用经验信息,因此提出了采用多步信息更新值函数的多步Q学习算法;二是在多步Q学习算法的动作选择中引入了模拟退火中的Metropolis准则,较好地解决了Agent选择动作时面临的新知识探索还是当前策略遵循的关键问题。其次,提出了离策略的最小二乘Q(λ)算法和在策略的最小二乘SARSA(λ)算法,以及各自的改进递推算法。针对经典的Q(λ)和SARSA(λ)算法存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态—动作对值函数的最小二乘逼近模型,推导了逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根据递推最小二乘参数估计方法,给出了各自的改进递推算法。由于最小二乘算法实际上是构造了强化学习问题的经验模型,因而能够加快收敛速度。再次,通过分析复杂产品协同概念设计过程的特点,提出了协同概念设计的集成模型,进而提出了基于MAS的协同概念设计系统的层次化联邦结构,设计了系统中管理Agent和设计Agent的结构。在这两类Agent中分别实现了任务调度、冲突消解、方案评价与优化、智能设计等功能。提出了适用于复杂产品概念设计的信念型承诺,给出了Agent的形式化表示,详细讨论了基于信念型承诺的Agent协作机制。该协同概念设计系统的建立为研究强化学习在其中的应用奠定了基础。最后,针对协同概念设计系统管理Agent中的任务调度和方案优化问题,提出了基于强化学习的求解方法。任务调度问题是协同设计的重要内容之一,目前的方法大多存在算法效率较低、收敛于局部最优解等缺点。本文建立了调度问题的马尔可夫决策过程(MDP)模型,从理论上证明了采用强化学习求解调度问题的可行性,给出了基于Q学习和Q(λ)学习的任务调度算法,从而为有向无环图(DAG)调度提供了一种新解法。现有的概念设计方案优化方法存在组合爆炸问题,因此难以对组合出来的方案逐一评价并获得最优方案解。本文引入了状态之间距离的概念,将方案优化问题建模为MDP模型,给出了基于Q学习的方案优化算法,应用实例表明了该方法的有效性。