【摘 要】
:
随着强化学习的迅速发展。其他行业的研究人员也不断的将强化学习思想应用到自己的研究领域中。随着以强化学习为核心的应用不断增多,强化学习存在的问题也逐渐的暴露出来。其中最主要的一个问题就是强化学习的效率问题,强化学习在完成运动规划任务的过程中,需要与环境进行大量的互动,如果没有一个好的探索策略,会大大延长智能体学习的时间。除此之外,强化学习需要使用奖励函数来激励学习,而在实际应用中,外界环境往往是复杂
论文部分内容阅读
随着强化学习的迅速发展。其他行业的研究人员也不断的将强化学习思想应用到自己的研究领域中。随着以强化学习为核心的应用不断增多,强化学习存在的问题也逐渐的暴露出来。其中最主要的一个问题就是强化学习的效率问题,强化学习在完成运动规划任务的过程中,需要与环境进行大量的互动,如果没有一个好的探索策略,会大大延长智能体学习的时间。除此之外,强化学习需要使用奖励函数来激励学习,而在实际应用中,外界环境往往是复杂的,智能体在学习过程中经常存在着奖励比较稀疏或是没有奖励的情况,在这种情况下,智能体则不能有效的进行学习。针对于强化学习的不足,本文分析了各类探索策略的优缺点。在基于计数的探索方式的基础上,提出了一种基于信息熵的新奇性奖励,用于激励智能体的探索。通过实验,我们证明了这种方式能够使得智能体获得对环境的更均匀的了解。通过在多个环境下的对比实验,证明了使用基于信息熵的新奇性奖励的模型能够获得比原始模型更高的环境奖励。本文在异策学习的强化学习算法的基础上,将智能体与环境的交互方式进行了改进。将智能体的策略分为了探索模型和动作模型,探索模型用于指导智能体探索,动作模型用于引导智能体完成任务。在训练过程中,本文采取图像作为观测状态,并使用内嵌的卷积神经网络对状态进行特征提取。利用新奇性奖励和值函数对探索模型进行训练,并将探索过程中的轨迹保存到缓冲区中,用于动作模型的训练。本文利用webots建立了多个不同的智能体运动规划任务的仿真环境,在不同的环境中将本文提出的方法与强化学习进行了对比实验,实验结果表明,本文提出的方法能够获得更高的环境奖励,并能够完成强化学习难以完成的任务。
其他文献
<正>一、借助海报,回顾批注角度师:大家一起看一看他们的海报,听一听他们的介绍。生:我的海报画面以铅笔画为主,上面写的是“不动笔墨不读书”。批注的角度一是启示,就是读了句子或者段落后,受到的启发;二是体会,就是结合文章内容写出自己的想法;三是提问,针对某一段落、句子等,提出自己的问题;四是写法,就是针对作者用的修辞手法等来进行赏析。
立场检测任务指的识别文本对于给定话题表达的立场,区别于简单的对单个文本进行分析,需要综合话题和文本的信息进行判断。这意味着要求模型具备一定的推理能力,能够从文本对文本中所提及实体的态度以及文本中所提及实体与话题的关系,推理出文本对话题的立场倾向。然而立场检测文本较短,上下文缺失,仅仅依赖于输入中的话题和文本,难以实现这样的推理。需要借助外部知识来补充相关背景,对话题和文本进行丰富,进而帮助模型捕捉
钨酸钴(CoWO4)作为过渡金属钨酸盐中的一种,已被应用于诸多领域。查阅相关文献发现,CoWO4拥有良好的光催化降解有机污染物的活性,但目前尚未发现关于CoWO4催化超声降解染料和药用废水的研究。由于声催化和光催化原理相似,同时声催化具有穿透力强,适合高浓度高色度废水的特点,因此本文探索CoWO4在声催化领域的应用,进行纳米钨酸钴声催化材料的合成、改性及降解有机污染物(以藏红T和四环素为模型)的研
微生物感染引发的死亡率逐年升高,已逐渐发展为一种日益严重的全球危机。因此,寻求新的抗菌疗法已成为治疗微生物感染迫切关注的问题。声动力抗菌化学疗法(Sonodynamic antimicrobial chemotherapy,SACT)主要是利用超声空化效应,激发聚集在微生物感染部位的声敏剂,产生一系列损坏性的物理效应以及活性氧(Reactive oxygen species,ROS),降低病原菌存
大数据质量问题是普遍存在的。在工业传感器、可穿戴设备、智能手机、平板电脑等设备中会源源不断的产生大量数据,由于数据来源的多样性,以及由软硬件故障引起的错误,都会给数据带来噪声,导致数据质量问题,影响数据的可用性。数据质量低劣不仅影响大数据真正价值的体现,甚至会造成严重的后果,数据质量问题亟需解决。其中,不一致是典型的数据质量问题,在数据管理领域,目前已经有自动化的一致性错误检测、不一致数据修复和一
近年来,胃肠道间质瘤(gastrointestinal stromal tumor,GIST)的发病率和死亡率均呈上升趋势,多数GIST都有c-KIT组成型激活突变。手术治疗是GIST最重要的治疗手段,但是c-KIT突变的GIST术后复发率较高。目前市面上治疗c-KIT突变阳性GIST的药物已出现耐药现象,因此亟需开发新型c-KIT抑制剂来改善GIST的预后。在本研究中,我们研究了新型c-KIT抑
<正>为喜迎党的二十大,绍兴市上虞区崧厦街道中心小学少工委编印了《故事中的党史》红色校本教材。少先队员时时读故事、讲故事、演故事,兴致勃勃地当起党史故事的小主播,成为红色文化的小先锋。校内+校外:百名队员讲党史“为了麻痹敌人,民兵们研究了一种在地雷腹中自动点火的‘慢雷’……”队课上,各中队“党的故事我来讲”红色故事擂台赛如火如荼地进行着。根据优秀红色故事的评选标准,四(2)中队张欣沂经民主投票被选
近年来,以互联网为媒介的电子媒体迅速发展,网络新闻作为基础应用之一正在影响越来越多的网民,拥有巨大的市场前景。然而在感受着网络新闻带来的快捷化信息便利的同时,网络新闻文章数目庞大、文章质量参差不齐、阅读过程耗时延长等弊端也日益显现。在这种时代背景下,自动文本摘要技术逐渐受到关注:文摘结果可推送给用户,吸引用户点击提升用户阅读效率,进而提高用户对产品的依赖性;作为中间结果代替原文本参与信息检索过程,
心血管疾病是近年来不容忽视的公共卫生问题,随着社会与经济的高速发展,心血管疾病的患病率在逐渐上升。冠心病是患病率最高的心血管疾病,而冠脉CT造影技术则是有效、非创伤性的冠脉相关疾病评估与诊断方式。实效性强的冠心病计算机辅助诊断方法是智慧医疗在心血管临床场景应用中的关键技术。然而受限于冠脉狭窄的复杂性和不确定性,基于冠脉CT造影的自动冠脉狭窄分析依然是一项具有挑战性的任务。本文设计了局部Transf