基于聚类分析的强化学习方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lfh8686806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种在交互过程中学习的计算性方法,是机器学习的重要分支,具有结构简单、泛化能力强等特点,在智能决策、自动驾驶和机器人控制等领域显现出巨大的发展潜力。分层强化学习通过引入options的概念,实现了在多个时间抽象层次上学习、规划和表征知识。分层强化学习方法中的层次结构可以由设计者根据经验来事先设定,也可以使用其他人工智能算法自动发现。如何自动地发现分层强化学习的层次结构以及采用何种策略来完成子任务是分层强化学习需要解决的两个问题。聚类是无监督学习的代表性方法,可以有效地发掘数据的内在结构,在模式识别、图像分割和计算机视觉等领域被广泛使用并取得巨大成功。同时,聚类经常作为其他机器学习任务的前驱过程,在数据处理方面发挥着重要的工具性作用。因此,将聚类用于强化学习框架中有着重要的研究价值。本文的主要研究工作如下:第一,针对任务分层问题,本文提出了一种基于状态聚类的子目标自动发现算法。该算法使用后继表示的方法来表示状态空间,在此基础上使用聚类的方法来发现空间内的关键状态,并将其定义为子目标,实现复杂任务的自动分层。相比于传统的状态聚类法,本文所提出的算法可以获得更加合理的子目标位置,在非对称环境内有更好的表现。此外,不同于传统的依赖状态图寻找“瓶颈状态”的方法,本文所提出的算法具有更强的灵活性。第二,针对子任务的策略生成问题,本文设计了一种新的奖励函数,通过潜在学习过程来获得options内部策略。对于每个不同的option,本文将其指向的子目标的后继表示向量作为一种额外奖励,来指导智能体学习生成option的内部策略。同时,本文还提出一种增量式的算法,交替地进行后继表示构建和options内部策略学习,从而获得更具鲁棒性的分层策略。第三,本文展示了如何将聚类法生成的options应用到强化学习内,并以表格型的算法为例,展示了分层策略对算法的加速效果。实验结果显示,使用本文算法所生成的options在空间中分布合理,可以很好的引导智能体在空间内探索,并大大提高强化学习的收敛速度。
其他文献
余映潮老师主张:一节课需要呈现一种板块式结构,在板块与板块之间要有主问题相连接。“板块式思路”与“主问题设计”具有鲜明的优点:简洁、好用,教学过程顺序清晰,明显地表
从文献研究来看,不少读者仅凭“隆中对”就认定孔明是积极入世的,是早已“身在隆中,心在汉”。细读入选部编教材九年级上册的《三顾茅庐》和原著相关情节,我们不难发现这些观
在先进制造业背景下,辽宁省制造业中复合型创新人才、应用型技术人才总量不足,人才断档现象严重。针对符合区域战略需求的重点学科方向,辽宁工科院校人才培育质量与效益不高
呃逆是指喉间呃呃连声、声短而频、令人不能自制为主要临床表现,多见于膈肌痉挛,一般能自行停止.但在临床上常见持续数小时甚至数月,服用中西药物仍不能停止者.2001-2003年期
“一带一路”倡议的目标之一,是建设文明交流、互鉴、共存之路。“一带一路”倡议的合作内容之一,是实现民心相通。为加强与“一带一路”沿线国家、地区的文明互鉴和民心相通,《文化部“一带一路”文化发展行动计划(2016—2020年)》指出,要积极参与文化交流和传播,推动中华文化“走出去”。区域文化是中华文化的组成部分,是一个区域内物质财富和精神财富的总和。辽宁因独特的自然和人文环境,本身具有丰富的区域文化
随着车联网技术的不断成熟,车联网安全技术也逐渐得到众多学者的关注。目前,在车联网安全技术研究的领域中主要是车联网体系架构安全模型研究和联网汽车信息安全的相关研究及
在上期,小乐给大家介绍了该怎样注意耳机的线材,线材的好坏会在很大程度上决定耳机的音质表现和耐用性。不过。耳机的音质表现主要还是得看喇叭的设计和用料。小乐相信,很多朋友
本文阐明了基本粒子广义协变理论和海森堡理论的一个可能的直接内在联系,对海森堡所提出的统一场理论从广义相对论的角度提供了理论根据。
鼻咽癌是我国南方常见的恶性肿瘤,其发生是个多阶段的过程。随着现代分子生物学和细胞生物学的发展,发现肿瘤不同发展阶段的一些分子可作为标志物有助于肿瘤的早期诊断及预后判
整合素β1是一类介导细胞与细胞外基质及细胞与细胞间黏附的细胞黏附分子受体。整合素β1参与肿瘤转移的多个环节,在肿瘤转移中发挥着重要的作用。本文就整合素β1与肿瘤转移