【摘 要】
:
强化学习是一种重要的机器学习方法,不需要建立环境模型,而是通过不断试错,与环境交互获得知识,改进动作策略,具有良好的自学习和在线学习能力。然而,在具有大状态空间的应用
论文部分内容阅读
强化学习是一种重要的机器学习方法,不需要建立环境模型,而是通过不断试错,与环境交互获得知识,改进动作策略,具有良好的自学习和在线学习能力。然而,在具有大状态空间的应用领域,强化学习一直被维数灾难问题所困扰。分层强化学习引入抽象机制实现状态空间降维,将强化学习任务分解到抽象内部和抽象间的不同层次上分别实现,从而每层上的学习任务仅需在低维空间中进行,是解决维数灾难问题一种有效方法,有着广泛的应用前景。分层强化学习方法中的层次结构可以由设计者根据专家知识事先确定,也可以自动生成。由于在复杂环境或者未知环境内学习时,任务层次结构很难事先确定,因此有效的自动分层方法一直是近几年的研究热点。本文主要对以下几个方面进行了研究和探讨:首先,介绍了分层强化学习方法的研究进展,接着对强化学习和分层强化学习的相关理论进行了深入研究,并比较了各种方法的优缺点。其次,研究了模糊聚类方法,针对强化学习任务的特点,提出了一种改进的基于遗传算法的模糊聚类方法。最后,提出了一种新的分层强化学习方法。将改进的模糊聚类方法融合到分层强化学习中,对大状态空间进行自动聚类,达到状态空间的降维,并以生成的聚类子空间为基础构造子任务,进而实现学习任务自动分层。通过实验结果证明了该算法的有效性。
其他文献
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任
随着计算机技术和网络技术的迅猛发展,企业和个人通过网络进行数据交换变得越来越频繁,XML成为数据描述和数据交换的标准,越来越多的数据以XML的形式存储和交换,大量的XML文
在许多公共场所中,人们常常面临着处理海量视频的挑战。计算机视觉领域的目标跟踪技术能有效地解决这类问题。然而,实时地视频跟踪技术本身极具有挑战和困难,跟踪过程中会受到背
过去几十年里,计算机动画一直是人们研究的热点,实时仿真运动的布料是计算机动画的重要组成部分,吸引了越来越多的研究。虽然布料仿真非常重要,并且已经有了大量的研究,但快
访问意图是计算机网络对抗中重要的战术情报。本文研究意图识别技术,为计算机网络对抗情报系统获取访问意图及置信度提供技术依据。主要工作概括如下:本文研究意图识别技术,主
模糊推理是模糊控制的理论基础,它已成为分析模糊控制器的重要工具。目前在模糊推理、模糊控制方面主要采用基于CRI的模糊推理算法,该算法对蕴涵算子和复合算子的选取有严格
随着网络技术的快速发展,基于网络的应用越来越多、越来越复杂。种类繁多的应用(合法的或者非法的)不但吞噬着越来越多的网络资源,而且也对QoS和网络安全带来了巨大的威胁。
Web服务是一种自描述的、模块化的、崭新的分布式计算模型,开放标准的采用使得Web服务具有很好的互操作性。以Web服务为代表的软件服务已成为一种新型的Web应用形态,如何实现
语义特征造型是新一代CAD/CAM集成系统的关键技术之一,是产品模型设计的核心。另外,将参数化技术应用于特征造型使得特征具有可调整性,提高了系统设计效率。因此,参数化技术
本文研究总结了近年来专家系统在国内外的发展及应用情况,分析论述了面向工程对象的智能型专家系统的知识表示及其分析、运算和推理过程,详细介绍了实际设计系统时解决的一些