基于Rainbow网络的强化学习方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:BLUECAT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能研究因数据量的增加与计算能力的提升在图像识别、自然语言处理、自动驾驶、智能家居、机器人等应用领域发展迅速,研究者们提出了各类优秀的人工智能算法,如支持向量机、决策树、卷积神经网络、循环神经网络、深度森林、深度强化学习等。深度强化学习是一种结合了深度学习与强化学习理念的算法,自其被提出起,就因其强大的学习能力被许多研究者视为实现通用人工智能的关键。强化学习算法最早出现于自动控制研究中,其仿照生物奖惩学习模式的算法理念可以在没有学习样本的前提下完成相关任务。随着深度学习相关算法的完善,有研究者将深度学习与强化学习相结合,提出了深度强化学习算法,解决了原有强化学习算法无法应对复杂环境的问题,在游戏智能、量化交易、自动驾驶、机器人等领域取得了优秀的成果。尽管深度强化学习算法在某些环境下表现优越,但是仍存在一些不足,如学习速度慢、学习效果不稳定等问题。针对这些问题,本文采用了遗传算法与进化策略中的部分理念,将原有的深度强化学习算法中加入选择、交叉、变异等遗传操作,并在遗传过程中采取精英策略,旨在提升原有算法的学习速度与稳定性。本文的优化研究主要分为两部分进行,第一部分是以Rainbow算法为基础强化学习算法,将遗传算法与深度强化学习算法相结合,根据Rainbow算法中的智能体结构对选择、交叉、变异等遗传操作进行重定义,提出遗传Rainbow算法;第二部分是在遗传Rainbow算法的基础上,将Rainbow算法替换为IQN算法,并仿照生物的基因特性为智能体加入血统因素,提升对智能体性能评估的准确性。本文的实验环境为Atari 2600中的Asterix与Assault环境。在将遗传Rainbow算法与基于IQN的血统遗传算法代入到相应环境后,本文从平均性能、最佳性能、平滑最佳性能等角度进行分析。实验证明,遗传Rainbow算法与Rainbow算法相比,各方面表现均有所提升。基于IQN的血统遗传算法不仅性能优于IQN算法,且由于血统因素的加入,取得了比遗传Rainbow算法更好的提升效果,验证了血统遗传操作的优化作用。
其他文献
新特提斯洋的关闭和随后的印度板块与欧亚板块碰撞造山,导致了青藏高原的大规模隆升,引发全球性地质环境发生了翻天覆地的变化,并表现出极大地时空差异性。滇西北老君山地区位于青藏高原东南缘,处在印度-欧亚板块碰撞造山构造转换带,该区不仅伴生了高原隆升引起的差异性地块升降作用,还发育了大量走滑拉分盆地和逆冲推覆构造。但是,前人对该地区已有的研究更多地受限于1:20万及1:5万区调所建立的地层框架,近期在区域
目的:分析ICU脓毒症相关肌病(Sepsis-induced myopathy,SIM)患者三种证型的股四头肌超声图像,寻求各证型与其超声图像特点分布相关性,为SIM早期诊断提供依据。方法:于2018年6月至2019年2月广州中医药大学第一附属医院重症医学科纳入治疗的ICU脓毒症患者,符合纳排标准后,纳入39名患者。根据中医辩证分为脾胃虚弱组(P组)、肺热津伤组(F组)、肝肾亏损组(G组)。纳入患
随着军民融合进程的推进和知识经济的兴起,国防工业企业不仅要承担国防建设的任务,维护国家安全,还要在市场竞争中保持优势,保证企业的可持续性发展。这就要求国防工业企业具
南京师范大学随园校区是金陵女子大学旧址,采用了中国传统宫殿式的建筑形式,融入了西方建筑理念,代表了 20世纪初中国教会大学所倡导的中西合璧式建筑新样式,具有重要的历史和艺术价值。本文通过文献搜集与实地走访的方法,对南京师范大学随园校区民国建筑的历史沿革、布局、现状等方面进行了梳理和总结。从历史沿革看,随园校区内的民国建筑始建于1922年,风雨百年,经历了国际安全区设立,日军占领、复校、新中国成立等
TFT LCD(Thin Film Transistor Liquid Crystal Display,薄膜晶体管液晶显示器)是由具双折射性的液晶和具半导体特性的薄膜晶体管元件组成的显示器件。TFT LCD的生产工艺复杂且对制程精度、环境要求高,导致生产成本高,若生产中有不良产生将导致生产出的产品无法销售而造成大量损失。本论文通过科学的分析方法和精密的解析手法,对亮点不良进行分析,确定亮点的发生原
在二冷的喷雾冷却过程中,雾滴特性对冷却效果有显著的影响,在一定范围内雾滴粒径越小、数目越多,雾化效果就越好,这不仅能够提高传热效率,同时更有利于铸坯表面温度均匀。准确的获得气雾射流雾滴的粒径大小和分布,是研究气雾流场的关键。为实现对气雾雾滴粒径的检测,克服其雾滴粒径小、浓度大且不能正向拍摄等问题,提出了气雾射流雾滴粒径的光学成像识别方法,并对气雾射流在不同工况下的平均粒径和粒径分布进行了研究。开展
局部感受野、参数同享和池化方式的引入,使得卷积神经网络结构更加简略清晰,拟合参数更少,并且具有对抗数据集扭曲,平移,转动的特性。常规图像分类方式需要预先根据不通过任务不同数据集以人工或半人工形式提取特征,而卷积神经网络相反,是端到端的自主进行层次化的特征提取,因此具有更高的识别率和更广泛的实用性。卷积神经网络的涌现极大激励了计算机视觉和模式识别算法模型的更新换代,也鞭策了科研人员对图像分类识别算法
冷冻胚胎技术属于人类辅助生殖技术的一种,是现阶段最为成熟的生育手段。随着体外受精——胚胎移植、冷冻胚胎技术的广泛使用和快速发展,其本身所涉及的生命价值和伦理道德问题逐渐暴露并增多。这些纠纷的解决离不开法律的规制,但在目前,我国缺少专门针对人体冷冻胚胎的立法保护,就冷冻胚胎的法律属性和地位来说,也并没有一个较为清晰的定义。冷冻胚胎的权利归属问题也是众说纷坛、意见不一。本文以冷冻胚胎的典型案例为切入点
基于身份的加密(Identity-Based Encryption,IBE)中,所有收件人都可以使用属性集来标明身份。它允许发件人加密数据,而无需通过知道收件人的身份信息来查询公钥证书。发件人的加密数据存放在云端,同时制定好相应的访问控制策略。发件人并不关心谁将会访问加密数据,因为只有对应的属性集满足相应的访问策略的来访用户才能进行解密。访问控制策略和公钥系统的集成有效地提高了访问控制能力。基于身
特发性肺纤维化(idiopathic pulmonary fibrosis IPF)是间质性肺纤维化疾病,其病因不明、发病率高、难诊断、难治疗。病理改变集中在肺泡上皮细胞减少、肺泡塌陷、变形及残存组织连接、间质细胞增生、纤维化形成。现代研究表明IPF的机制研究与上皮-间质转化(epithelial-mesenchymal transition,EMT)假说有关,EMT可在起始阶段开启纤维化,亦可在