基于奖励设计的深度强化学习算法研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sm2998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是智能体通过与环境交互的“试错”,最大化累积奖励,以期找到最优策略的一种学习方式。随着深度学习在图像识别、自然语言处理、无人驾驶等领域取得成功,其强大的表征能力与强化学习决策能力结合而成的深度强化学习,逐步在博弈游戏、自动驾驶、推荐系统等领域得到应用。然而,深度强化学习在奖励比较稀疏或者有延迟的情况下,仍然面临着因为策略更新受阻而导致智能体学习性能差的问题。奖励设计是解决上述问题的主要机制之一,它通过结合人的先验知识来设计更频繁的奖励或训练信号,以引导策略学习方向,该方向研究仍是学术界和工业界的关注点,本文对基于奖励设计的深度强化学习算法开展了研究,主要工作如下:本文提出了一种通过游戏图像进行阶段目标表示以实现奖励设计的阶段目标奖励设计方法(PGR),实现了基于阶段目标奖励设计的深度强化学习算法(PPO-PGR)。该算法使用游戏中的状态图像表示智能体的阶段目标,并使用帧数间隔的目标距离衡量阶段目标完成度,由此设计阶段目标奖励函数,从而引导智能体的强化学习策略更新,以实现智能体学习性能的提升。基于Atari环境上的Kangaroo游戏对学习性能进行了验证评估,和近端策略优化算法比较,所提方法在环境得分性能指标上取得更好的表现。本文提出了一种在探索奖励机制上引入先验知识导向其方向的奖励设计方法(DEC),实现了阶段目标及探索奖励衰减混合的深度强化学习算法(PGR-DEC)。该算法引入积极和消极的游戏结果分类知识,并以游戏状态图像表示。设计了基于先验知识衰减的探索奖励,从而引导智能体在稀疏奖励环境中既能保持探索机制获得未知策略学习的机会,又能降低盲目探索导致的低效学习风险。在Atari环境的Kangaroo游戏上,所提PGR-DEC算法与内生好奇心模型算法(ICM)进行比较评估,实验表明所提算法能取得更高的环境得分。
其他文献
再生障碍性贫血(AA)是一种以全血细胞减少为表现的骨髓造血功能衰竭综合征,主要临床表现是出血、贫血和感染等[1].AA的发病机制尚未完全明确.细胞毒性T淋巴细胞(CTL)亢进导致的造血干/祖细胞(HPSC)免疫损伤是主要发病环节.宿主的遗传易感性是免疫损伤的基础[2].CTL通过人类白细胞抗原(HLA)-Ⅰ类分子识别HPSC自身抗原,激发自身免疫反应机制,在引发骨髓造血功能衰竭的自身免疫反应中发挥重要作用[3-4].本文旨在研究AA患者外周血HLA-A等位基因在多谱系上的表达是否缺失,及对免疫抑制治疗(I
皮下脂膜炎样T细胞淋巴瘤(subcutaneous panniculitis-like T-cell lymphoma,SPTCL)是一种罕见的皮肤T细胞淋巴瘤,为αβ细胞毒性T细胞浸润皮下脂肪组织,在所有原发皮肤T细胞淋巴瘤中所占比例不足1%1.临床上SPTCL可表现为无痛性皮下结节,部分晚期患者发热、肝脾及淋巴结肿大.疾病晚期尤其是合并噬血细胞综合征(HPS)的患者进展迅速,疗效差,预后不良[2].本文报道一例累及皮肤及皮肤外肠系膜的初诊SPTCL患者,一、二线化疗方案原发耐药,疾病进展并继发HPS,
稀疏表示在计算机视觉、信号处理、模式识别、图像处理等领域,特别是在人脸识别领域,引起了广泛的关注。稀疏表示的基本原理是用尽可能少的原子在超完备字典中描述一个信号,它具有区分性,在理论和实际应用中都有较好的声誉。随着人工智能在现实生活中的应用越来越广泛,对快速、可靠的机器学习算法,特别是分类和目标识别算法的需求也越来越大。为此,稀疏表示分类(SRC)是最近提出的一种基于稀疏表示理论的分类方法。由于稀
行人重识别(Person Re-Identification,Re-ID)是利用视觉信息判断图像或者视频中是否存在特定行人的技术,该技术无需监控网络的结构信息,即可实现跨摄像头设备下的行人身份关联。作为智能视觉监控系统的关键技术之一,行人重识别在刑侦调查、安防安保中发挥着极其重要的作用。受到拍摄场景、拍摄视角、行人姿态、行人衣着等因素的影响,同一行人的外观存在较大的差异性,而不同行人的外观可能存在
目的 探讨全血定量PCR法检测EB病毒(EBV)DNA载量对于异基因造血干细胞移植(allo-HSCT)后淋巴增殖性疾病(PTLD)的诊断价值.方法 对2004年4月至2019年4月于北京大学第一医院血液科行allo-HSCT的694例血液病患者进行回顾性分析.结果 ①694例allo-HSCT患者中29例(4.2%)发生PTLD,其中男22例,女7例,中位年龄22(1~52)岁,中位发病时间为移植后2.1(0.8~20.6)个月.②单因素分析显示年龄<30岁、再生障碍性贫血、HLA配型不合、预处理方案中
目的 探讨左旋门冬酰胺酶对伯基特淋巴瘤细胞株增殖、细胞周期和凋亡的影响及其作用机制.方法 应用CCK-8法检测左旋门冬酰胺酶对伯基特淋巴瘤细胞株细胞增殖的影响,流式细胞术检测细胞凋亡率和细胞周期,实时定量PCR和Western blot检测分析细胞周期、凋亡、自噬和PI3K/Akt/mTOR信号通路中各种分子的表达变化.结果 左旋门冬酰胺酶明显抑制多种伯基特淋巴瘤细胞株的增殖,并引起细胞周期G0/G1期阻滞,诱导细胞凋亡和自噬.进一步结果表明左旋门冬酰胺酶抑制c-Myc的表达,同时抑制p-PI3K、p-A
患儿,女,8岁,因“反复腹泻,间断乏力2年余,脾大”于2019年2月就诊.患儿2015年起出现反复腹泻症状,2017年患儿因乏力伴腹泻就诊于外院,B超示脾大.入院查体:贫血貌,腹部膨隆,脾脏肋缘下平脐,无压痛,肋缘下锁骨中线平脐、质韧、边钝,余腹部查体未见明显异常.血常规:WBC 5.75×109/L、RBC 2.91×1012/L、HGB 86 g/L、PLT 122×109/L.免疫球蛋白IgG< 330 mg/L、IgA 655 mg/L、IgM 22.7 g/L.
目的 探讨伴低T3综合征(LT3S)的急性髓系白血病(AML)患者的临床特征及预后.方法 回顾性分析2013年1月至2019年12月江苏省人民医院血液科连续收治的236例AML患者的临床资料,按照血清甲状腺素水平将其分为LT3S组和非LT3S组,比较两组患者的临床特征及预后.结果 在236例AML患者中,有62例(26.3%)患者出现LT3S.血清游离三碘甲状腺原氨酸(T3)水平与白蛋白(r=0.443,P<0.001)、血红蛋白(r=0.187,P=0.005)水平呈正相关,与C反应蛋白(r=-0.40
患者,女,24岁,因“发现血小板减少6年”于2020年12月18日来我院门诊就诊.患者6年前因感冒至当地医院查血常规示血小板21×109/L,白细胞、红细胞无异常,至当地医院就诊,查血常规示WBC 7.05×109/L、HGB 154g/L、PLT 22×109/L.骨髓象:增生活跃,退化细胞可见,粒系占55.2%,少数中幼粒细胞有核浆发育失衡现象,红系占27.2%,中幼红比例增高,可见核分裂象,成熟红细胞大小不均,淋巴比例减低,可见异型淋巴细胞,全片见巨核183个,分类20个,其中成熟无血小板形成巨核细
目的 观察骨骼肌缺血再灌注后大鼠血清炎性指标改变及磷脂酶Cδ3(PLCδ3)表达水平变化,探究磷脂酶Cδ3在骨骼肌缺血再灌注中的作用.方法 以120只大鼠为研究对象,随机分为4组建立骨骼肌缺血再灌注模型(对照2小时组,对照4小时组,缺血2小时组,缺血4小时组),每组各30只大鼠,在大鼠缺血再灌注1天、3天和7天后分别检测各组大鼠血清IL-6、IL-1β含量水平及骨骼肌中PLCδ3表达水平.结果 缺血再灌注大鼠血清中的炎性指标显著增加,同时缺血4小时组大鼠再灌注1天、3天和7天后血清中IL-6和IL-1β含