基于动作抽象的分层深度强化学习研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:pennate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一个很重要的机器学习方法,得到广泛地应用,但也存在着一些有待解决的问题。分层强化学习将任务分解成若干子任务并对其进行分别求解,可以有效解决经典强化学习中的“维数灾”问题,分层深度强化学习可以解决深度强化学习中稀疏奖赏的问题。在分层深度强化学习中,Option是分层深度强化学习的一个主要框架,其表示动作抽象。基于Option的方法中,常常通过子任务的目标(子目标)来构建Option。但这类方法存在着无法智能发现子目标,无法得到最优子目标数量以及无法智能构造奖赏机等问题。针对此,围绕着子目标发现,优化子目标数量以及以及通过子目标来构建奖赏机等方向展开研究,提出了基于动作抽象的分层强化学习研究,主要包括以下三部分内容:(1)经典的分层深度强化学习算法难以解决自动发现子目标的问题,针对此问题,本文提出一种基于计算机视觉的自动子目标识别的分层深度强化学习算法(Hierarchical Reinforcement Learning with Automatic Subgoal Identification,ASIDQN)。其利用计算机视觉的方法自动识别子目标,然后将子目标作为输入,实现智能控制,减少了人工干预。ASIDQN算法实现了自动发现子目标,实验验证了算法的性能。(2)一般的Option-Critic算法需要人工来指定Option的数量,建立对应个数的Option,解决任务。但是这种方式所依据的Option数量往往不是解决任务所需的最佳Option数,针对此问题,本文提出了基于优化子目标数的Option-Critic(Option-Critic Algorithm Based on Sub-goal Number,SOC)算法。通过与环境进行交互得到初始的目标数,生成对应数量的Option,以这些Option得到的奖赏值作为反馈给算法进行优化,求得最优解或近似最优解所对应的子目标数。SOC解决了Option数量需要人工指定的问题,实验验证了算法性能。(3)通过奖赏机可以对任务进行分解,但是需要采用人工方式来构建奖赏机。针对此问题,本文提出了一种基于子目标构建奖赏机的分层强化学习算法(Hierarchical Reinforcement Learning Algorithm Based on Subgoal Formation of Reward Machine,SQRM)。SQRM算法是一种基于子目标来构建奖赏机的算法,无需通过人工来指定奖赏,只需要通过找到对应任务下的子目标,以此为依据即可构造奖赏机。SQRM实现了智能构造奖赏机,实验验证了算法性能。
其他文献
随着城市化的快速发展及人们消费观念的改变,国内各城市的商业综合体应运而生。有别于既往商场的单一业态功能,商业综合体顾名思义在于其综合性,集购物、餐饮、娱乐、办公等功能为一体,具有很大的优越性,也是城市综合体理念在商业空间中的体现。功能综合也意味着功能边界的模糊化与消费群体的综合化,故为了引导和激励消费者连贯消费,商业综合体在环境打造方面也不遗余力,公共空间的舒适性、休闲性成为其共同特点。景观元素不
学位
目的本研究旨在利用静息99mTc-甲氧基异丁基异腈(99mtechnetium-sestamibi,99mTc-MIBI)单光子发射型计算机断层(single photon emission computed tomography,SPECT)门控心肌灌注显像(myocardial perfusion imaging,MPI)研究左心室局部室壁运动(wallmotion,WM)异常在诊断阻塞性冠心
学位
目的探讨基于胸部CT扫描评价的心外膜脂肪容积(epicardial fat volume,EFV)与疑诊冠心病(coronary artery disease,CAD)患者心肌缺血的关系,与传统心血管危险因素及冠状动脉钙化积分(coronaryarterycalciumscore,CACS)比较,评价EFV预测疑诊CAD患者心肌缺血的增益价值。方法回顾性入选于2018年3月至2019年11月在苏州
学位
家蚕(Bombyx mori)已有8500多年的驯养历史,一生要经历卵、幼虫、蛹和成虫(蛾)四个发育阶段,是完全变态的鳞翅目模式昆虫。家蚕由于世代周期短,个体小,产卵量多(约500粒)适合规模化饲养。家蚕的产卵量和品种的遗传有关,另外还会受到营养条件和环境条件影响。经过长期的室内驯养,家蚕对外界环境的抗性较弱,纳米材料和化学农药等都会对其造成不良影响。纳米氧化石墨烯(Graphene oxide
学位
研究新型功能性饲料原料对水产饲料的可持续发展有重要影响。中国的藻类资源以海带尤为丰富,2019年中国海带的年产量已超过250万吨,为世界第一。因此本研究以原料易得、功能性强的海带为研究对象,比对了加工前后海带的营养品质变化;然后将不同海带加工产品添加到斑点叉尾鮰日粮中,研究海带对其生长的影响,利用转录组测序的方法分析其作用机制,对海带这种饲料原料进行综合评估。研究内容如下:1.海带制品制备前后营养
学位
目的:本课题的研究目的是探究MOB1A和MOB1B在小鼠正常脊髓及脊髓损伤区域内神经细胞中的分布定位情况,明确MOB1A和MOB1B对体外培养的神经元轴突伸长的作用及关系,进一步探索MOB1A和MOB1B对小鼠脊髓损伤后神经元轴突伸长及神经运动功能恢复的影响。方法:(1)通过免疫荧光技术分别观察MOB1、MOB1A和MOB1B在小鼠正常脊髓内神经细胞中的分布;(2)构建小鼠脊髓撞击损伤模型,通过免
学位
目的比较急诊手术和肠道支架治疗左半结肠癌伴梗阻的近远期疗效,初步分析GLP-2表达与患者近远期疗效的相关性。方法选取2010.10-2020.10在苏州大学附属第三医院就诊的左半结肠癌伴梗阻病人,纳入65人,分为急诊手术组(ES组,n=43)和支架组(SEMS组,n=22)。比较两组的临床资料、手术资料、病理资料、术后资料以及总体生存率和无复发生存率,并进一步分析“肿瘤术后复发”的危险因素。运用倾
学位
目的:本研究主要探究术前C反应蛋白(CRP)和白蛋白比值(CRP/ALB)在判断胆囊癌预后中的作用,并比较其与格拉斯哥预后评分(GPS)、中性粒和淋巴细胞比值(NLR)、系统免疫炎症指数(SII)、血小板和淋巴细胞比值(PLR)在评估胆囊癌患者预后的价值差异。方法:本研究分析了 152例于2010年1月至2017年8月在苏州大学附属第三医院肝胆胰外科行根治性手术切除的胆囊癌患者,并收集所有患者的临
学位
许多配位聚合物(CP)具有半导体特征,已表现出良好的光电响应性能。通过改变其金属原子的种类和桥联配体的结构,可以有效地调节配位聚合物的结构和性能。将有机染料负载于半导体材料表面是改善其光电响应性能的有效方法。本研究设计合成了一个新型半刚性四膦(P4)配体 dppbpda(N,N,N’,N’-tetrakis((diphenylphosphino)methyl)biphenyl-4,4’-diami
学位
家蚕(Bombyx mori)是鳞翅目模式昆虫和农业经济昆虫,蚕丝具有重要的经济价值,在农业、工业、医疗和生物材料开发等领域被广泛应用。家蚕丝腺是丝蛋白合成与分泌的重要场所,其中在后部丝腺合成、分泌的丝素蛋白占丝物质总量的65%-75%。由于长期定向驯化,家蚕对化学农药极为敏感,微量化学农药易引起家蚕不结茧。啶虫脒是一种新型烟碱类杀虫剂,具有优良的内吸活性和较好的环境相容性,被广泛应用于农林害虫的
学位