基于多峰探索的多步强化学习算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:flyrain_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将深度学习与强化学习结合已经成为了一种主流趋势,但将其运用到现实环境还面临许多的挑战,仍需要大量的训练数据、高维度的观测空间以及精确的智能体输出端口,这些都需要更强大的探索算法,探索性的缺失将导致算法在多峰值函数的更新中陷入局部最优;然而过度的探索也会导致算法性能的下降,使算法的收敛速度下降。因此,如何平衡探索与利用的关系,加快算法的收敛速度,成为了强化学习算法的一个挑战。为了缓解上述问题,本文主要做了以下三方面工作:(1)提出一种基于路径调整的截断Lévy飞行多峰探索框架。目前的探索方法大多基于1-步随机行走,而在随机探索过程中的大部分路径是重复的,即1-步随机行走限制了智能体探索更大区域的能力。针对这种情况,本文提出了一种基于多步随机行走的深度强化学习多峰探索框架,利用Lévy飞行算法,扩大了多步探索的随机性,使智能体能够探索更多的值函数峰值,从而探索到更好的动作值函数。该探索框架能够与多数探索方法兼容,且在实际过程中融入路径调整策略,使得智能体避开已知的较差状态进行飞行。结合后的强化学习算法在连续动作环境与离散动作环境下都取得了更好的效果,具有更好的探索性。(2)提出了基于好奇心驱动的多步随机行走方法。先前的多步随机算法采用随机策略生成动作,虽然能缓解多峰值函数的局部最优问题,但在部分训练收敛的状态下会出现探索浪费的问题,即在相对熟悉的位置,智能体仍然可能会采用多步随机行走,这样的策略同样会降低算法的探索性,因此在相对不熟悉的状态采用多步随机行走效果会更好。针对这一问题,本文提出了好奇心驱动的多步随机行走方法,在好奇心大的状态采用多步行走策略,在好奇心低的区域采用网络输出动作,该方法解决了先前框架的探索浪费问题。本文将该框架与未加入好奇心驱动的多步随机行走算法进行对比,实验证明加入好奇心驱动的算法在大部分环境中得到了更多的奖励。(3)提出了基于行动者-评论家框架的最近经验λ-回报方差修正算法。多数强化学习算法采用1-步时序差分方法来更新值函数。该方法更新时产生的方差较低,但需要自举的方式来逐步更新值函数,最终收敛。这导致算法的收敛速度较慢,且容易陷入局部最优的情况。针对这一问题,本文提出了最近经验λ-回报方差修正算法,该方法将最近经验中的λ-回报与全局经验的1-步时序差分进行混合更新,并且对λ-回报部分进行了方差修正算法,进一步缓解多步时序差分带来的方差问题。实验证明,基于AC框架的最近经验λ-回报方差修正算法由于多数传统随机算法,获得了更高的累计奖赏。
其他文献
随着晶硅电池双面发电技术的兴起,电池背面的性能调控受到光伏行业的广泛关注。将Ag纳米颗粒(Ag-NPs)有机结合到电池结构中,利用局域表面等离子体共振(LSPR)效应来增强光电转换性能已成为该领域的研究热点。不同尺寸Ag-NPs发挥的作用和方式不同,常用的尺寸集中在50-300nm或10nm以下:前者由于较大的散射截面,能够增加光在吸收材料中的光程;后者则依赖强烈的近场效应,能促进活性层中载流子的
学位
细胞膜是生物材料和生物活性分子与细胞发生作用的第一个重要场所。深入了解多肽等生物活性分子与细胞膜之间的相互作用动力学过程,特别是研究这些活性分子对细胞膜结构和性质的干扰,对于功能性多肽的设计(包括基因和药物载体的构建,抗菌、抗病毒、抗肿瘤药物的开发等)具有重要意义。膜活性多肽主要包括细胞穿透肽和抗菌肽两类。细胞穿透肽能够携带较大的蛋白质或纳米粒子,在不造成显著细胞毒性的情况下穿过细胞膜,因此在纳米
学位
二次电池是迄今为止最成功的储能设备,给我们的日常生活带来了巨大的改变。随着社会的进步和发展,储能需求从便携式电子设备向电动汽车转变,需要拥有更高能量密度的可充电电池。锂金属电池因为具有超高的理论容量(3860 mAh/g)和最低的负电化学电位(相比于标准氢电极为-3.040V)受到广泛的研究关注。然而,锂金属的高活性伴随而来的许多安全隐患需要解决:不可控的锂枝晶生长、锂金属电极与电解液之间的不可逆
学位
近年来,发展文化软实力一直是我国加快建设社会主义文化强国的重要战略,文旅融合为文化产业与旅游业的相互推动和发展带来了新的契机。苏州拥有“历史文化名城”“江南水乡”“人间天堂”等外界称谓,从苏州古典园林、大运河、古镇古村古街等特色文化资源到国家全域旅游示范区、特色小镇;从夜间文旅产品“姑苏八点半”“江南小剧场”到“苏州国际设计周”“威尼斯苏州周”等活动,丰富的文化资源、旅游资源、节庆活动、文化品牌等
学位
随着短视频平台的兴起与发展,高度显性化、货币化乃至职业化的儿童网红群体正在迅速扩大,伴随着全民“云养娃”式的追捧而来的还有来自社会公众关于父母或其他商业组织利用儿童牟利的争议。在此背景下,本文以短视频平台上的儿童网红为研究对象,借助数字劳工理论,结合参与式观察法、深度访谈法以及文本分析法,梳理儿童网红在短视频平台上的劳工化过程,确立儿童网红的数字劳工身份。另外,从父母、政府、公众三方面呈现各主体为
学位
文字作为一种记录语言的符号系统,古往今来,其不仅作为人类信息传递的重要工具,同时也是人类文明传承的载体,更是人类从原始过渡到文明的重要标志。在艺术领域,文字作为装饰图案广泛出现于建筑、服装等艺术设计当中,特别是在我国服装发展史中,文字作为古代皇家宫廷服饰中的重要装饰图案元素的发展历史极为悠久,并逐渐在发展的过程中形成了以本民族文字为代表的文字符号图案系统,其背后所承载的历史文化价值也使得文字的符号
学位
模仿学习是一种不依赖环境奖赏信息,从专家样本中学习最优策略的方法。生成对抗模仿学习结合模仿学习的决策能力与生成对抗网络的表征能力,在高维连续控制任务中展现了强大的智能性和良好的普适性,已经成为模仿学习领域的研究热点之一。然而,生成对抗模仿学习在模态表征能力、算法稳定性以及样本利用率方面存缺陷,严重限制了其在复杂现实任务中的应用。针对以上生成对抗模仿学习在对抗训练过程中出现的三个问题,本文提出了解决
学位
情绪分析作为情感分析的一个重要分支,因其广泛的应用而成为自然语言处理的研究热点。随着互联网的飞速发展,越来越多的人喜欢在以微博、推特为首的社交媒体平台上宣泄情绪,因此微博存在海量的情绪表达文本。目前,相对于英文情绪分析数据集,中文的情绪分析数据集较少。挖掘微博数据,构建高质量情绪分析数据集,对研究情绪分析具有十分重要的意义。然而,微博和推特存在文本短小、信息表达有限的问题,过去大多方法只考虑文本语
学位
近年来,文本和图像的细粒度语义匹配研究吸引了工业界和学术界研究人员越来越多的关注。文本和图像的细粒度对齐信息(例如:对齐图片中的目标对象与文本中涉及的短语实体)可以被广泛应用于很多重要的应用场景,例如:多模态检索、多模态情感分析、个性化推荐系统和线下门店数字化等。传统的文本图像细粒度匹配任务,旨在对齐图片和文本中的细粒度实体,并未就这些细粒度实体进行深入语义分析。本文通过语料分析发现,大多数用于描
学位
目的 探讨手法松解联合核心肌群训练治疗神经根型颈椎病的疗效及对血液流变学的影响。方法 选择2018年3月至2021年2月南京市高淳中医院收治的86例神经根型颈椎病患者为研究对象,按照数字表法随机分为对照组和联合组各43例。对照组采用核心肌群训练,联合组采用手法松解联合核心肌群训练,2组均持续干预4周。对比2组临床疗效及干预前、干预4周后颈椎病临床评价量表(CASCS)、视觉模拟评分法(VAS)评分
期刊