基于聚类分析的强化学习方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：lfh8686806

【摘要】

：

【作者】

：

李博

【出处】

：

电子科技大学

【发表日期】

：

2020年08期

【关键词】

：

强化学习分层强化学习后继表示自动分层状态聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种在交互过程中学习的计算性方法,是机器学习的重要分支,具有结构简单、泛化能力强等特点,在智能决策、自动驾驶和机器人控制等领域显现出巨大的发展潜力。分层强化学习通过引入options的概念,实现了在多个时间抽象层次上学习、规划和表征知识。分层强化学习方法中的层次结构可以由设计者根据经验来事先设定,也可以使用其他人工智能算法自动发现。如何自动地发现分层强化学习的层次结构以及采用何种策略来完成子任务是分层强化学习需要解决的两个问题。聚类是无监督学习的代表性方法,可以有效地发掘数据的内在结构,在模式识别、图像分割和计算机视觉等领域被广泛使用并取得巨大成功。同时,聚类经常作为其他机器学习任务的前驱过程,在数据处理方面发挥着重要的工具性作用。因此,将聚类用于强化学习框架中有着重要的研究价值。本文的主要研究工作如下:第一,针对任务分层问题,本文提出了一种基于状态聚类的子目标自动发现算法。该算法使用后继表示的方法来表示状态空间,在此基础上使用聚类的方法来发现空间内的关键状态,并将其定义为子目标,实现复杂任务的自动分层。相比于传统的状态聚类法,本文所提出的算法可以获得更加合理的子目标位置,在非对称环境内有更好的表现。此外,不同于传统的依赖状态图寻找“瓶颈状态”的方法,本文所提出的算法具有更强的灵活性。第二,针对子任务的策略生成问题,本文设计了一种新的奖励函数,通过潜在学习过程来获得options内部策略。对于每个不同的option,本文将其指向的子目标的后继表示向量作为一种额外奖励,来指导智能体学习生成option的内部策略。同时,本文还提出一种增量式的算法,交替地进行后继表示构建和options内部策略学习,从而获得更具鲁棒性的分层策略。第三,本文展示了如何将聚类法生成的options应用到强化学习内,并以表格型的算法为例,展示了分层策略对算法的加速效果。实验结果显示,使用本文算法所生成的options在空间中分布合理,可以很好的引导智能体在空间内探索,并大大提高强化学习的收敛速度。

其他文献

千里“因”“缘”一线“牵”:谈板块式思路与主问题设计——以苏教版选修《西湖的雪景》为例

余映潮老师主张:一节课需要呈现一种板块式结构,在板块与板块之间要有主问题相连接。“板块式思路”与“主问题设计”具有鲜明的优点:简洁、好用,教学过程顺序清晰,明显地表

期刊

板块式思路问题设计苏教版“因”雪景西湖选修教学过程

卧龙飞腾——部编版九上《三顾茅庐》人物形象分析

从文献研究来看,不少读者仅凭“隆中对”就认定孔明是积极入世的,是早已“身在隆中,心在汉”。细读入选部编教材九年级上册的《三顾茅庐》和原著相关情节,我们不难发现这些观

期刊

《三顾茅庐》人物形象分析文献研究兼济天下隆中对九年级孔明情节

先进制造下辽宁工科院校人才培养模式的探索

在先进制造业背景下,辽宁省制造业中复合型创新人才、应用型技术人才总量不足,人才断档现象严重。针对符合区域战略需求的重点学科方向,辽宁工科院校人才培育质量与效益不高

期刊

先进制造工科院校人才培养模式

眼针治疗呃逆32例

呃逆是指喉间呃呃连声、声短而频、令人不能自制为主要临床表现,多见于膈肌痉挛,一般能自行停止.但在临床上常见持续数小时甚至数月,服用中西药物仍不能停止者.2001-2003年期

期刊

治疗呃逆眼针常见膈肌痉挛主要临床表现服用一般自制

“一带一路”背景下辽宁区域文化传播路径研究

“一带一路”倡议的目标之一,是建设文明交流、互鉴、共存之路。“一带一路”倡议的合作内容之一,是实现民心相通。为加强与“一带一路”沿线国家、地区的文明互鉴和民心相通,《文化部“一带一路”文化发展行动计划(2016—2020年)》指出,要积极参与文化交流和传播,推动中华文化“走出去”。区域文化是中华文化的组成部分,是一个区域内物质财富和精神财富的总和。辽宁因独特的自然和人文环境,本身具有丰富的区域文化

学位

“一带一路”辽宁区域文化传播路径

基于车联网信息安全平台风险评估系统的研究与实现

随着车联网技术的不断成熟,车联网安全技术也逐渐得到众多学者的关注。目前,在车联网安全技术研究的领域中主要是车联网体系架构安全模型研究和联网汽车信息安全的相关研究及

学位

车联网车联网安全风险评估驾驶员画像

你了解耳机喇叭的架构吗

在上期，小乐给大家介绍了该怎样注意耳机的线材，线材的好坏会在很大程度上决定耳机的音质表现和耐用性。不过。耳机的音质表现主要还是得看喇叭的设计和用料。小乐相信，很多朋友

期刊

耳机喇叭架构耐用性音质线材

基本粒子广义协变理论和海森堡理论

本文阐明了基本粒子广义协变理论和海森堡理论的一个可能的直接内在联系,对海森堡所提出的统一场理论从广义相对论的角度提供了理论根据。

期刊

基本粒子海森堡

鼻咽癌标志物的研究现状

鼻咽癌是我国南方常见的恶性肿瘤，其发生是个多阶段的过程。随着现代分子生物学和细胞生物学的发展，发现肿瘤不同发展阶段的一些分子可作为标志物有助于肿瘤的早期诊断及预后判

期刊

鼻咽癌标志物EB病毒

整合素β1与肿瘤的转移

整合素β1是一类介导细胞与细胞外基质及细胞与细胞间黏附的细胞黏附分子受体。整合素β1参与肿瘤转移的多个环节，在肿瘤转移中发挥着重要的作用。本文就整合素β1与肿瘤转移

期刊

肿瘤转移整合素Β1细胞外基质

基于聚类分析的强化学习方法研究

与本文相关的学术论文