基于内在奖赏的深度强化学习算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：TT_sky

【摘要】

：

【作者】

：

韩高杰

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习算法是近年来机器学习领域的一个研究热点。但在面对复杂环境的决策问题时,深度强化学习算法的表现仍有待提高。内在奖赏是深度强化学习领域中用于解决复杂环境中“硬探索”问题的一种重要思想。本文的主要工作从改进现有的基于内在奖赏的深度强化学习算法入手,围绕智能体样本获取速度低下、环境预测模型不准确以及易受“电视噪音”状态影响等问题展开,研究内容主要包含以下三个部分:（1）针对无模型深度强化学习算法样本获取效率低下的问题,本文提出一种基于内在奖赏的环境预测模型算法——好奇心变分自编码器。该算法使用智能体所经历的真实样本进行训练以获得环境的潜在表示,并通过其产生生成样本以提高样本获取速度和效率。在此基础上,将该算法与好奇心驱动探索进行融合以提升智能体的探索效率。基于上述改进,本文将该算法与深度Q网络算法相结合,在Atari 2600环境中验证了算法的性能以及有效性。（2）针对环境预测模型的不准确而造成的持续的高内在奖赏问题,本文提出一种使用状态特征来预测内在奖赏的算法——基于好奇心驱动的潜在世界模型算法。该算法首先以自监督的方式抽取状态特征,然后在特征层面使用循环神经网络来获得环境的潜在表示,从而得到更加稳定的内在奖赏。同时,本文从探索难度以及奖赏分布两个层面对不同的环境进行了分类。此外,本文将该算法应用于无模型深度强化学习算法中,在Atari 2600环境中针对各类游戏的特点评估了这些方法,实验证明,该方法能有效地改善这些算法的性能。（3）针对基于预测误差的内在奖赏探索策略易受到“电视噪音”状态影响的问题,本文提出一种基于内在奖赏的深度强化学习算法——基于好奇心-伪计数驱动的深度强化学习算法。该算法改进了内在奖赏的设计以缓解智能体在多场景游戏的场景边界停止探索的问题。同时,本文将两个预测模型的方差用于内在奖赏的设计以得到更加准确的内在奖赏。此外,本文选取了Atari 2600环境中各类游戏作为实验对象,实验表明,好奇心-伪计数驱动探索能有效地提高这些游戏的表现。

其他文献

景观叙事方法在景观环境设计中的解析与应用——以神居山温泉度假村为例

现代社会的人们由于生活压力的提高,希望在繁忙的都市生活中寻找一处静谧之地来洗涤身心的疲惫。温泉因其具备的医疗保健功效在历史上曾被人类多次开发利用,是现代人进行短途休闲旅游的首选。于是温泉度假村的建设之风开始兴起。我国的现代温泉旅游发展已有60余年,从整体开发规模上来看,虽然我国的温泉度假村数量多,但质量偏低,其中有自己的品牌文化和知名度的更是少之又少。本文总结了温泉旅游建设的“同质化”、温泉旅游缺

学位

基于远程监督数据的关系抽取研究

关系抽取是知识图谱构建过程中的关键环节,具有重要的研究意义和应用前景。作为信息抽取的子任务之一,关系抽取旨在从文本中抽取出两个或多个实体之间的关系。根据关系中涉及的实体数量,又进一步分为二元关系抽取和多元关系抽取。目前,有监督关系抽取技术由于其出色的性能得到了广泛的应用,但仍然面临着标注数据不足的问题。尽管通过远程监督的方法能够快速生成大量的标注数据,但这些数据中不可避免地存在错误标注问题,特别是

学位

基于图文可解释的时尚品推荐方法研究

近些年互联网技术的飞速发展产生了海量的数据,导致了信息过载问题。为了缓解信息过载问题以及提高推荐的透明度和说服力,基于图像和评论等辅助信息的可解释时尚推荐系统应运而生。但目前的工作生成的解释形式单一,基于评论的解释不够直观,并且没有充分挖掘评论生成和偏好预测之间的深层关系;基于图像的解释忽视了对不可视偏好的捕捉和解释,并且缺乏对多种辅助信息的充分挖掘和利用。因此本文主要围绕基于评论和图像可解释的时

学位

基于图嵌入的图匹配系统

图匹配作为图数据挖掘的一项子技术,能够从大数据图上返回与用户给定查询图结构相同的匹配,有助于挖掘海量数据中隐藏的有用信息,具有重要研究价值。图匹配的理论基础是子图同构问题,最早解决这个问题的算法是Ullmann算法。VF2算法在Ullmann算法的基础上进行了改进,提升了效率,但是其在过滤阶段并未有效缩小查询空间,对于大规模的图数据而言仍需大量计算。随着机器学习算法的不断发展,图嵌入技术逐渐引发研

学位

科技文献溯源方法的研究

随着每年大量的学术论文被发表,研究者需要花费越来越多的时间进行文献查找。现有的文献推荐算法通过计算文献相似性对推荐结果进行排序,忽略了推荐文献间的联系,不能很好地对相关领域的文献进行有效溯源以及重要文献推荐。本文提出了新的文献推荐方法,对于给定的查询文献,能够溯源并推荐相关文献的演化路径,让研究者能够掌握相关研究主题的发展与演化脉络。具体工作如下:（1）为了能够对文献进行有效地溯源和相关文献推荐,

学位

基于抽象语法树的安卓代码异味的重构方法研究

安卓代码异味是指影响移动应用质量的代码片段。分析安卓代码异味并重构相应代码片段,对提升应用质量有着重要意义。近年来,研究学者愈加关注代码异味在移动应用中的表现,但关于安卓代码异味的研究还有待深入,特别是目前仍缺少高效的代码异味的预测、检测、重构方法。因此,本文基于抽象语法树,对安卓代码异味的预测、检测展开研究,并进一步探究安卓代码异味重构对应用性能的影响,具体包括以下三个部分:（1）基于树神经网络

学位

高中语文语法教学分析

《普通高中课程标准》将语文课程定义为"是一门学习语言文字运用的综合性、实践性课程。"其基本特点是工具性与人文性的统一。由此可见,语文的基础性重要地位。本文通过分析高中语法教学现状,探讨高中语文教学存在的问题。

期刊

电子水泵永磁无刷直流电机性能影响因素的仿真分析

为了满足新能源汽车电子水泵研发过程中对永磁无刷直流电机性能的设计要求，需要对该类电机的性能的影响因素进行分析。首先以电机行业一般设计标准和其它电机产品的设计经验作为依据，得出电机设计必需的物理量。然后基于ANSYS Electronics Desktop中的RMxprt软件进行参数化设计计算，初步得到一个性能参数较为合理的电机模型。最终，通过数值模拟得出设计工况下铁芯长度、永磁体厚度、极数和气隙四

期刊

双三相永磁同步发电机直流母线无电流传感器稳压控制

双三相永磁同步发电机（dualthree-phasepermanent magnet synchronous generator,DTP-PMSG）具有良好的容错性、高功率密度等特点，适用于高可靠性要求的高端装备领域。针对传统母线电压比例积分（proportionalintegral,PI）控制存在电压响应慢、波动幅值大和控制系统复杂的问题，该文提出直流母线无电流传感器稳压控制方法。在DTPPMS

期刊

基于图嵌入的POI推荐方法研究

近年来,随着定位技术的迅速发展,Foursquare等基于位置的社交网络吸引了越来越多的用户并积累了海量签到数据。用户在社交网络中分享的位置、时间等签到信息,不仅展现出用户的个性化偏好和生活模式,同时也为个性化POI推荐的研究奠定了坚实的基础。POI推荐通过挖掘社交网络中的签到数据,能够帮助用户快速找到满意的POI服务。一方面,对于单个POI,人们在现实生活中更关心的是在POI消费什么样的Item

学位

基于内在奖赏的深度强化学习算法研究

与本文相关的学术论文