【摘 要】
:
强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”(学习参数的个数随
论文部分内容阅读
强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”(学习参数的个数随变量的维数成指数级增长)所困扰,学习效率低下,导致难以及时甚至无法完成学习任务。因此,如果能有效缓解“维数灾难”,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高智能体在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。因此,为了缓解未知大规模环境下的“维数灾难”问题,提高学习效率,本文研究将动态分层技术和基于模型的自学习技术相结合的方法,在基于模型的强化学习过程中,提出一种基于探索信息自适应聚类的动态分层强化学习算法。该算法动态生成融合了状态抽象和时态抽象(或称动作抽象)的MAXQ分层结构,从而通过限制MAXQ中每个子任务的策略搜索空间而显著加快了学习速度。首先,在基于模型的强化学习过程中,利用基于探索信息的自适应聚类算法将整个状态空间划分成若干个状态子空间,即通过状态抽象完成了任务的自动分层,并基于状态子空间的终止状态集,提出-种改进的动作选择策略。其次,根据各动作有效执行的频率情况进行时态抽象自动生成类似于MAXQ的分层结构,进而根据有效动作集将各状态子空间归入到相应的MAXQ子任务中,从而自动生成融合了状态抽象和时态抽象的MAXQ分层结构。再次,基于该MAXQ分层框架搜索任务的递归最优策略,并在以后的学习过程中动态调整MAXQ结构,以降低初次分层结构不合理的局限性。通过仿真试验表明,本文提出的算法能显著提高未知环境下智能体的学习效率,有效缓解“维数灾难”问题,从而验证了算法的有效性。最后对论文进行总结,并提出一些有待进一步研究的问题。
其他文献
科里奥利质量流量计能实现高精度的直接质量流量测量,是当前发展最为迅速的质量流量计之一。科里奥利质量流量计测量中常遇到批料流和两相流的情况,如灌装饮料、液体气化等。
在现代工业测控领域,数据采集装置被广泛应用,各应用领域对数据采集的要求也越来越高。数据采集装置正朝着高精度、便携化、网络化和智能化的方向发展。常用的8位/16位单片机
在工业智能化和高科技化的当代社会,汽车作为代步工具的重要性越来越明显。目前在我国,汽车厂商越来越重视生产质量、生产成本、生产效率,相关部门也出台了各种有利措施,来推
绝缘栅双极晶体管(Insulated Gate Bipolar Transistor,IGBT)将GTR与MOSFET两者的优点结合在一起,逐渐成为组成中小功率电力电子装置的主导开关器件,因此基于IGBT的电压源型换流器(Voltage Source Converter,VSC)也在不同领域得到了广泛应用,尤其为紧密配合我国“十二五”规划对新能源开发利用战略的有效实施,人们加快了电压源型换流器在新
目前,在水质有机污染综合指标的在线检测装置领域,主要有基于传统的物理化学方法和新兴的光谱检测方法两类设备。两者相比,光谱检测方法具有检测速度快、无化学试剂二次污染
线缆故障的检测与定位一直是引起国内外广泛关注的问题,其中最困难最具挑战性的问题是间隙性故障的检测定位,因为这些故障发生的持续时间很短,通常只有几毫秒,而且在线缆不工作时无法重现。要实现对间隙性故障的检测与定位,只有在线持续地进行测试。本文首先介绍了目前能对线缆间隙性故障进行检测定位的一些方法,并指出了它们各自的优缺点,然后重点介绍了基于混沌序列的扩展频谱时域反射方法(SSTDR方法)。现阶段的SS
手持式交通违章处罚系统是采用嵌入式系统技术、嵌入式的图形化界面、RFID射频识别技术及GPRS技术等于一体的手持式智能化电子设备。随着我国改革开放的不断深入,国民经济的
针对传统感应加热电源频率跟踪电路模拟实现在快速性、准确性方面的不足以及功能单一的局限性,本文研制一套以高性能单片机为核心的智能数字化高频感应加热电源,实现对负载谐振频率的快速、准确跟踪,建立数字化人机交互系统,实现感应加热系统的信息化、智能化等功能,通过接口通讯电路实现感应加热的在线控制。并在数字化硬件平台的基础上,提出了改进的PFM功率控制方案和基于DPLL频率跟踪控制策略。本文在理论分析的基础
自从“小世界”效应和“无标度”特性被发现后,复杂网络便引起了科学家和工程技术人员的极大关注,而最近几年,与复杂网络密切相关的多智能体系统更激发了许多领域研究者们的
带式输送机作为连续输送设备广泛用于矿山、港口、码头、电厂、冶金、化工、建材、粮库等工农业。近年来,随着带式输送机系统向着长距离、高带速方向的发展,原有的带式输送机