基于值函数的深度强化学习改进研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:chhy6266746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习作为机器学习的一个分支,其通过结合深度学习的感知能力与强化学习的决策能力实现了对从感知到行为端到端的学习。目前,基于值函数的深度强化学习相关研究已经在以高维感知数据为输入的序列决策任务中取得了巨大的成功,但仍面临值函数近似不准确、学习速度慢、训练数据利用率低等问题。此外,在更为复杂的部分可观测环境下,由于常使用循环神经网络进行状态信息的计算,算法还存在网络训练困难以及性能不稳定的问题。为缓解这些问题,本文对基于值函数的深度强化学习算法的模型结构进行研究与改进,本文的主要工作与贡献分为以下三部分:(1)提出了基于预测信息的深度Q学习算法。为提升深度Q学习算法的决策水平以及训练数据利用率,新算法在深度Q网络中嵌入经验预测模块。该模块可以根据经验为智能体提供具有导向作用的预测信息,帮助其进行最优值函数的计算,从而提高算法的决策水平。并且算法所添加的预测信息是由经验池中提取的训练数据计算获得,而非通过模型模拟,因此可以提高智能体对训练数据的利用率,同时避免了对复杂环境建模困难的问题。(2)提出了基于循环预测状态表示模型的深度Q学习算法。在部分可观测环境中,智能体无法根据当前观测来确定准确的状态,所以需要根据过去动作和观测历史对当前状态进行预测表示。考虑到有模型算法具有稳定性好、数据利用率高的优势,本文使用神经网络对具有连续观测空间的部分可观测环境建立循环预测状态表示模型,实现了对状态的表示与跟踪,然后将循环预测状态表示模型与深度Q网络相结合,实现了在连续部分可观测环境下求解序列决策问题。(3)提出了基于循环卷积神经网络的POMDP值迭代算法。现有的QMDP-net算法通过使用卷积神经网络来参数化表示QMDP算法,实现了快速高效地求解部分可观测马尔科夫决策问题。但QMDP-net仅使用卷积层和最大池化层来模拟值迭代更新过程会导致出现算法性能不稳定的问题,因此本文对其网络结构进行了改进,通过使用门控循环单元网络来代替实现QMDP-net算法的值迭代更新过程,将价值迭代模块重构成循环卷积网络,从而有效地缓解QMDP-net算法由于网络结构带来的优化问题,使智能体在部分可观测马尔科夫决策问题中有更好的性能表现。
其他文献
背景及目的:人类免疫缺陷病毒(HIV)和幽门螺旋杆菌(Hp)感染均是一个严重的全球性的公共卫生问题。研究者发现,即使是同一型别HIV感染性别、年龄相同的患者,其进展为获得性免疫缺陷综合症/艾滋病(AIDS)的时间及临床转归不尽相同;即使是采用同一种高效抗逆转录病毒治疗(HAART)方案,患者的预后也不尽相同。因此,探索影响HIV/AIDS患者临床转归及HAART疗效的因素逐渐成为近年来的研究热点问
光是影响植物生长发育的重要环境因子,植物对生长环境中光信号变化高度敏感,进化出一套复杂的光感应和转导系统,比如模式植物拟南芥用来感应红光和远红光变化的光敏色素phyA-phyE。遮荫环境中红光和远红光比例(R:FR)下降,植物通过光敏色素感知并诱导叶柄和下胚轴快速伸长等一系列避荫反应(SAR),遮荫下植物还会出现衰老表型。有研究表明,phyA对遮荫诱导的衰老有一定的抑制作用,phyA突变体在强遮荫
唐氏综合征(Down’s syndrome,DS)是由于21号染色体全部或部分三体导致的染色体疾病,临床上针对21三体的产前筛查技术检出率低或耗时长、费用高,而产前诊断技术耗时长,操作技术要求高,无法满足大量检测的要求。因此,建立一种简单、快速、廉价、高通量的唐氏综合征产前检测技术,对唐氏综合征的预防具有重要的意义。第一章,首先对唐氏综合征发病机制进行概述,同时,详细介绍了唐氏综合征检测技术的研究
目的:脑血管病特别是缺血性脑梗死可作为恶性肿瘤患者最常见的神经系统疾病,其发生率仅亚于转移性疾病。相关研究表明,约20%-40%的肿瘤合并脑梗死患者未发现常见的脑梗死危险因素,恶性肿瘤的相关机制可能是导致缺血性脑梗死发生的原因,称为恶性肿瘤相关性脑梗死。而其中隐匿性躯体肿瘤的患者以脑梗死为首发表现较为少见,其发病率约0.4%。已有发现肿瘤相关性脑梗死患者的脑小血管疾病发生率更高。目前研究认为扩大的
股票市场是金融市场中至关重要的角色,对于市场中的各方参与者不论是投资者或是经营者,都希望能够掌握公司的营业状况及发展情况,以此来进行投资选择和经营决策。营业收入的高低是衡量一个公司是否健壮的重要指标,因此在投资经营中对于营业收入的预测能力一定程度上影响了决策的成败。本文建立了四个预测模型来预测300家A股上市公司在2017年6月30日的二季度累计营业收入。阐述了所用的XGBoost模型、RF模型以
随着现代生活场景逐渐丰富,不断发展的智能设备致力于重构人与各类生活场景的交互方式,在科技的支持下,智能体感类设备引领的新方式为人机交互过程搭建起了桥梁。人机交互离不开对移动目标运动行为的检测,将现实中的运动情况准确地投射在数码空间中。对运动行为可通过外部检测,如激光追踪定位、计算机视觉定位等,这些方法精确度高、实时性好,但其设备的复杂性、较高的成本局限了应用范围,多用于特定的检测场景。运动行为也可
滨海湿地生态系统提供了许多重要的生态系统服务,具有极高的生产力,所以滨海湿地碳收支受到越来越多的生态学者们的关注。其中红树林湿地生态系统是蓝色碳汇的重要贡献者,所以在评估红树林碳收支时准确描述总初级生产力(Gross Primary Productivity,以下简称GPP)至关重要,但目前对常绿红树林GPP季节性变化的了解非常有限。日光诱导叶绿素荧光(Solar-induced Chloroph
随着制造业信息化、智能化发展,刀具的数字化模型与信息化管理变得越来越重要。目前国内的刀具相关系统主要实现刀具的库存信息、使用状态存储位置等数据处理方面功能,在针对刀具模型建模、仿真等方面的图形功能开发还有待提高。同时,当前网络化、云技术、人工智能已成为CAD技术发展主流。本文开展基于WebGL与OpenCASCADE(简称OCC)的刀具在线建模与仿真的系统研究开发。主要研究内容如下:(1)基于网络
昆嵛山隶属于崂山山脉,坐落于胶东半岛的东部,三面环海,东临文登,与乳山相连,山峰众多,山势曲折蜿蜒,整个山区山峰的海拔多在500米以上。主峰名为泰礴顶,山势颇为陡峭,风景秀丽,环境优美,海拔约为923米,有“山东半岛屋脊”的美称。昆嵛山地处于北暖温带,总面积71000余亩,暖温带季风气候,雨热同期,雨量充沛。昆嵛山岩石以花岗岩分布最广,片麻岩、石英斑岩有少量分布。昆嵛山的土壤类型属于森林棕壤,呈酸
有机-无机复合材料在世界上已经得到广泛的关注和应用。N-异丙基丙烯酰胺(N-isopropylacrylamide,NIPAm)本身自带双键,同时含有亲水的酰胺键和疏水的端位异丙基,使得其原位聚合高分子聚N-异丙基丙烯酰胺(Poly(N-isopropylacrylamide),PNIPAm)具有十分丰富的理化性质和应用前景。本文重点研究了 3种环境友好型的PNIPAm-无机复合材料,主要研究结果