针对on-policy与LSTM的优先级经验回放策略

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mmx1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习目前已经成为学术界的热门方向之一,其一度被视为最容易实现通用人工智能的方法。但是想要正确应用深度强化学习依旧存在许多现实问题,一方面,智能体存在隐藏状态的问题在实际应用中不可避免,另一方面,如何保证信息的有效利用是强化学习长期讨论的困难,而本课题则主要基于上述两方面固有缺陷进行一定探索与研究。首先,为了优化agent在POMDP任务下的表现,本文基于主流PPO2算法尝试加入LSTM网络。为了适配LSTM网络对连续序列数据的训练需要,我们对采样数据进行收集、切割、重整合和填充操作。第二,本课题探索了优先级经验回放策略在on-policy算法里实践的可能性。具体来讲,每一轮对agent交互产生的数据加入优先级进行区别采样,通过降低样本利用率的方式来提高样本利用效率,并且由于反向传播计算的是梯度的平均,因此在单次生成的总样本数足够多的情况下,样本利用率的损失可以忽略不计。在模型水平达到一定标准的情况下进行合理的选择性采样可以有效的辅助训练,从而将模型的综合水平提升一个台阶。第三,本课题将前两项工作结合。由于对数据按照优先级排序必定会打乱数据原有的时序性,使得LSTM网络无法正常训练。因此我们考虑使用episode代替帧数据计算优先级进行采样,并且由于采样目标的改变,我们也进而设计了更适合训练任务的优先级度量指标和采样策略。最后,本文在GYM环境和MPE环境验证了上述三方面工作的效果,通过训练收敛后的收益曲线证明了基于各项任务改进后的PPO算法均优于原始的PPO算法。
其他文献
在小天体探测任务过程中,小天体的三维模型对探测器的着陆、导航等任务起到至关重要的作用。在探测器处于接近阶段且距离小天体几十千米时,通过窄视角相机拍摄的观测图像只包含小天体轮廓信息,无法得到小天体表面清晰的纹理细节。本文提出了一种基于轮廓的小天体三维建模方法,能够生成低分辨率的小天体三维模型,可为后续的小天体高精度建模任务和着陆导航任务提供初值。本文主要从以下两个方面进行展开研究,一是在不考虑相机外
学位
目前,深度学习广泛用于各领域并取得了优异表现,但是这往往需要大量标注数据的支持。大量标注数据的获取意味着高昂的成本与苛刻的应用条件。因此,随着深度学习的发展,如何在实际场景下突破数据限制,成为目前重要的研究目标,而半监督学习正是其中一大研究方向,它通过利用大量的未标记数据辅助少量的标记数据进行学习,很好地减轻了深度学习的数据需求压力。伪标签生成方法是当前半监督学习的重要组成部分。所生成的伪标签质量
学位
人类的思想活动不能脱离当时的媒介技术的记录、传递和储存。如同德布雷所阐释的,媒介学的中心是发现技术与文化的互动结构,考察一个社会结构和社会关系如何一般意义上和影响传递的技术结构进行互动。观念、话语和精神通过媒介化而获得实体。每个时代的传媒方式的主旨就是对其时代进行定义或制造信任。因此,媒介不只在传递信息上迅捷有利,更起到了开民智、纾民困的思想启蒙作用。以马克思主义传入中国的历程为例,其有效传播需要
学位
新闻漫画实现了个体与社会的互动连接,是一种独特的新闻报道形式。微博作为新闻漫画的传播载体之一提供了受众与传播者情境互动的平台。媒介技术的发展让信息的传收突破了时空的界限,微博为用户搭建了接收信息、表达民意的公共空间,以微博为代表的社交媒体重塑了信息的传播结构,带来了信息传播权力的转移,同时也为党的宣传工作带来了挑战。如何加强网络舆论引导、建设清朗网络环境,确保网络信息的传播秩序和国家安全、社会稳定
学位
近些年,心肺疾病严重影响着人们的身体健康。电子计算机断层扫描技术作为一种无创的医学图像检查技术,能够显示出胸腔内部的心肺器官,以此作为诊疗的依据。但由于影像以二维形式呈现,医生在观察时只能通过想象在脑海中重建出器官的三维结构,存在一定主观性与不确定性。依靠计算机技术重建出心肺各个器官的三维模型,最终呈现出一个更加直观的可视化结果,可用于病情诊断、手术规划、医患沟通等。本文研究了一套完整的心肺器官三
学位
目前新药研发需求日益增加,业界迫切需要一种智能发现潜在药物,代替人工实验的药物发现方式。利用人工智能相关技术辅助分子设计是药物研发领域的热点之一,如何利用人工智能结合计算机强大的算力辅助人类专家进行新兴药物分子的结构设计和属性分析成为当前药物研发领域的重要课题。近年来,一些深度生成模型被提出,使得利用深度学习方法自动发现和生成所需药物分子成为可能。这对推进药物开发进程,缩短药物研发周期,降低研发成
学位
随着互联网基础设施日益完善,网络平台特别是社交媒体平台已经逐渐成为人们针对热点事件发表观点、表达情绪的重要渠道,针对社交媒体文本的情绪分类研究也受到了越来越多的关注。现有工作大多忽视了社交媒体特有的情感信号,限制了准确性的进一步提升。本课题基于微博数据展开研究,将其中的事件信息和用户信息引入情绪分类模型。对于事件信息中的情感信号,本课题基于词汇被用于讨论不同事件时可能会表现出不同情感色彩的现象,提
学位
目标检测和语义分割作为计算机视觉领域内的研究热点,具有重要的研究价值和广泛的应用前景。现有的语义分割或目标检测任务的单任务模型的性能在工业界已有一定应用价值,但仍然存在数据量不足、训练周期长、过拟合以及学习效率低等弊端。而多任务学习能够通过隐式数据增强,以及多任务间的相互作用提升模型的泛化能力,减轻过拟合并降低模型陷入局部最优的风险。本文利用多任务学习的思想,将目标检测和语义分割两个任务进行联合学
学位
互联网改变了人们的关系模式,使得传统的亲缘关系与地域范围不再成为限制人们交往的必要因素,人们依据个性化的趣缘在网络上相识并大量汇聚。同时数字技术的发展带来了全新的用户交互模式,用户的交互行为可以打破时空的界限,互动不用被“亲身在场”的条件所限制,网络环境的匿名性使得人们在趣缘群体中可以无所顾忌地进行自我呈现和观点争辩,成员在趣缘群体中的互动行为成为一种现代新型社交的映射,也成为未来人类社交的大势所
学位
传染病未曾远离过人类社会的发展史,防疫是人类永恒的议题。疫情出现惯常性地引发社会信任危机,因此,关于防疫的研究是新闻传播学领域不能忽视的问题。在新冠病毒仍危害全球人类的当下,连接个体与社会的媒介具有重建交往信任、凝聚防疫共同体、建构现代防疫观的使命。“现代防疫观”是指现代化进程中与社会发展状况相适应的防疫观念,它的内涵在不同国家和社会发展的不同时期会发生变化。本文主要研究的是中国社会的现代防疫观。
学位