工程应用中强化学习方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lnclnc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
适应性计算是近年来与控制理论结合最紧密的一类机器学习方法。目前学术界一般将适应性计算的研究范围局限于两个研究课题:其一是遗传算法,其二是强化学习。本文的研究工作围绕强化学习展开研究。与多数研究强化学习的立足点不同,本文突出体现了以下两个特点:一是以算法为中心;二是以解决工程问题为目的,强调工程应用,而不是偏向人工智能。 强化学习方法最大的特点是与系统模型无关,这个特点使得强化学习方法非常适合解决复杂大系统的最优控制问题。但是,强化学习算法收敛速度慢在很大程度上限制了其更广泛的应用,本文研究了加快算法收敛速度的方法,并在理论上进行了证明,包括以下两方面研究内容: 在研究解决策略评价问题的算法方面,本文所做工作为统一研究已有加快算法收敛速度的方法,在相同假设条件下,研究TD学习和基于最小二乘法的TD学习两类算法的收敛精度和计算量,并证明它们的收敛性,得出不同算法收敛精度相同,不同的是算法收敛步数和单步计算量,从而清晰地表达出不同算法之间的异同之处。本文还得出基于最小二乘法的TD学习算法执行效果等价或接近等价于基于模型的算法的结论,据此可以解释基于最小二乘法的TD学习算法收敛速度快、样本利用率高的原因,并提出了在各种算法之间做选择时,需要着重考虑的五个方面。 在研究解决搜索最优策略问题的算法方面,本文以工程应用为目的,建立了基于工程领域知识的强化学习系统,将强化学习系统与先验知识(尤其是工程领域知识)结合起来,达到缩小状态空间,加快收敛速度的目的,并证明了该系统的收敛性问题,分析了收敛结果、先验知识和原始系统三者之间的关系。新系统的核心思想是由先验知识决策在先验知识可控态处的动作,而强化学习算法被用来学习先验知识无法实现的最优策略。一个关键结论是收敛结果与先验知识一致,即,在先验知识可控态处由先验知识决策动作,在先验知识非可控态处的动作由经过学习获取的策略决策。半马尔可夫决策过程上的强化学习算法是本文提出的基于工程领域知识的强化学习系统的理论基础,本文给出了半马尔可夫决策过程上Q-学习算法的收敛性证明。 应用基于工程领域知识的强化学习系统解决电梯群控问题,设计了一个基于常规群控算法的强化学习群控系统,在电梯仿真试验台上进行了实验,与常规群控系统和常规强化学习群控系统进行了详细比较。结果表明,基于先验知识的强化学习群控系统在性能上优于常规群控系统,略差于常规强化学习群控系统,而基于先验知识的强化学习群控系统在收敛速度上要远快于常规强化学习群控系统。实验结果还验证了基于工程领域知识的强化学习系统的收敛结果与先验知识一致的特性。其它所有关于强化学习的研究都侧重用强化学习算法解决问题,而本文的工作侧重用已有的工程领域知识解决问题,强化学习算法作为辅助工具改进工程领域知识的性能,更为难得的是这可以在工程领域知识无须做任何修改的情况下实现。 本文围绕哈密顿-雅克比-贝尔曼方程,研究了连续时间系统最优控制问题的强化学习解决方法。建立了基于前馈神经网络的强化学习算法,进一步分析了收敛结果与哈密顿-雅克比-贝尔曼方程的粘性解之间的关系,指出该算法逼近哈密顿-雅克比-贝尔曼方程的广义解,而这种解对于哈密顿-雅克比-贝尔曼方程来说不是唯一的,造成学习结果对于学习系统的参数设定比较敏感。 提出一个精确收敛至粘性解的强化学习算法结构,以收敛定理的形式给出,本文依据此定理证明了有限元强化学习算法。本文还研究了结合先验知识的连续时间强化学习系统,建立其数学模型,并且初步研究了在此数学模型上的价值函数和Q值函数的性质和算法。这些都是研究结合先验知识的强化学习方法的基础性工作,在此基础上进一步设计各种强化学习算法是一个值得深入研究的方向。
其他文献
无料钟炉顶是现代高炉的代表形式。无料钟炉顶控制系统是高炉控制系统的重要组成部分,利用高炉布料规律和先进的计算机技术、通讯技术、图形显示技术等对老系统进行的改造,提高
随着经济的发展,在机械制造业中,对相贯线的焊接质量和焊接效率要求越来越高,人工焊接难以达到生产效率的要求,而专用的焊接机器人可以代替人们有效完成这些任务。关节机器人以其
本文以国家863计划课题样机——磁悬浮铣床电主轴为研究对象,从线性力学与非线性力学的角度对磁悬浮轴承—转子系统的动力学特性进行了认真研究。 首先,本文从单自由度磁悬
近日,笔者路过重庆市合川区云门街道大碑村,看到20多位由村民转化过来的农业工人,正精心地为高粱地除草。刚栽下不到半个月的高梁地里,嫩绿的泸糯8号高梁苗已有30余公分高。
患者男,39岁.8年前确诊急性非淋巴细胞白血病-M7型,行亲缘性异基因外周血干细胞移植术,术后5年病情稳定.1年前腹部超声显示,肝脏、脾脏及双肾实质内弥漫性分布的异常回声(中
期刊
本文在总结基于实例的推理这种方法的发展及工程应用的基础上,提出将该推理方法应用于车身装配顺序的规划。首先研究了车身产品的结构特点和影响装配顺序的装配体结构特征,为
如何快速响应市场需求,生产出低成本高质量的产品,已成为制造企业提高自身竞争能力所急需解决的一个重要问题。在切削加工系统中,切削用量的合理选择将直接影响生产率、成本及整
传统机械设计方法几乎忽略了设计参数的随机性和模糊性,且对设计目标的多样性考虑不足。为此,本文探索了一种更符合客观实际的、合理的设计方法。本文运用模糊可靠性优化理论和
本文针对摩托车零件消声器壳体圆筒管形件和圆锥管形件的特点,研究比较了目前各种板料滚弯工艺,提出研制双轴滚弯成形机的必要性。通过对带聚氨酯橡胶包层滚弯工艺原理与影响因
并联运动机床PKM(ParallelKinematicsMachineTool)是90年代中期问世的新型制造设备。它是机构学理论、机器人技术和数控技术结合的产物。可实现多坐标联动数控加工、装配和测