聚焦对象的Q值学习算法改进研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:tingchao12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文主要研究聚焦对象的Q值学习算法改进。强化学习是机器学习中一大分支,其中Q值学习算法是一个经典的算法。Q值学习算法缺点之一是无法应用于状态较多的场景。聚焦对象的Q值学习算法是Q值学习算法的一种改进算法,可以应用于特定的状态更多的场景。通过人为分类场景中的对象,分解场景的状态空间,指数级减少了该场景的状态空间的规模,使算法可以在一定时间内训练出结果。本论文将从稳定性、收敛速度等角度研究改进聚焦对象的Q值学习算法。论文主要内容如下:首先将传统的聚焦对象的Q值学习算法与基于模型的学习算法相结合,在原算法的流程中结合了Prioritized Sweeping算法。算法在训练的同时增加了对模型采样学习的步骤。通过实验验证该改进加快收敛速度。第二,尝试改变聚焦对象的Q值学习算法使用的控制策略,通过场景测试不同控制策略对收敛的影响。原算法改进了控制策略,再结合基于模型的学习算法后,减少了原算法的参数数量,内存开销更低,收敛更加稳定。第三,论文尝试从提高计算资源利用的角度改进聚焦对象的Q值学习算法。将传统的结合基于模型学习的算法步骤中,模型学习的部分通过异步方式实现。本论文参考已有的Actor-Critic结构以及分布式优先经验回放技术,设计了一个简单的异步模型学习系统框架。该系统框架应用于传统的结合模型学习的算法,算法可以将模型学习的步骤利用处理器多核使用多进程或多线程等异步方式实现。在相同的训练周期内可以获取更多的环境的模型信息用于模型学习,从而提升训练效率。在只有一个节点进行模型学习的情况下,该系统和传统的Prioritized Sweeping算法流程一样,在多于一个节点进行模型学习的情况下,训练性能有稳定提升,提升效果和应用场景以及节点数量有关。最后,论文中将聚焦对象的Q值学习算法与异步模型学习框架结合,得到最终的改进算法,在不同规模的场景下通过实验测试,收敛速度都比原算法有所提升。
其他文献
近年来,冀东地区推广种植的甘薯品种病毒病发生严重,特别是主要种植的淀粉型品种卢选1号受病毒病危害严重,减产30%以上,使当地甘薯生产受到极大影响。本文对甘薯茎尖脱毒技术、脱毒苗检测技术、快繁技术进行研究,旨在为冀东地区生产脱病毒甘薯种苗提供技术保障。研究的主要结果如下:1用2%NaClO对甘薯茎段消毒515 min,观察其茎尖污染率、死亡率、成活率,试验结果表明,烟薯25、卢选1号与北京553分别
化石燃料的日益枯竭使人类面临严重的能源危机,开发新能源是应对能源危机的有效方法。纤维素是自然界中最丰富的生物质资源,是一种极具潜力的可替代化石燃料的资源,纤维素的高效利用能够有效地减轻能源压力和环境污染。5-羟甲基糠醛(5-HMF)是重要的生物质基平台化合物,纤维素制备5-HMF需经过纤维素溶解、解聚为葡萄糖、葡萄糖异构为果糖和果糖脱水等一系列连串反应,目前这一反应过程存在纤维素转化率偏低、催化剂
第二次世界大战后美国主导建立了“布雷顿森林体系”,将美元与黄金挂钩,从此奠定了美元在国际金融市场的霸主地位。2008年“次贷危机”爆发后,全球经济进入了漫长的复苏阶段。2015年美国经济各项经济指标向好,正式开启了加息通道,在“泰勒规则”和“伊文思规则”下,美联储利率调整成为世界各国判断美国经济走势的重要信息。回顾美联储的加息过程,每次都给中国股市带来影响,因此研究美联储利率政策对上证综指的影响,
自改革开放以来的将近四十年时间里,我国在国企、教育等方面均发生较大程度的改革,其中最主要的是经济体制改革。我国经济得到了快速发展,市场形态不断变化发展,住房改革的实
现代企业之间的竞争归根结底都是时间的竞争和人才的竞争,人力资源管理与开发在企业与企业的竞争中具有极其重要的作用,对于人力资源的管理己成为现代企业人力资源管理的重要
随着《中华人民共和国保险法》的实施,改革开放的力度加大,保险业务领域不断扩大,保险行业发展异常迅速。许多国内保险公司相继成立,加之国外保险公司以合资或独资等多种形式不断涌入中国市场,造成行业间的竞争压力变得越来越大。近年来,随着国民经济的提高和人们对保险意识的提高,使得保险行业的潜在市场客户增多,但由于其市场产品的同质化,导致行业间恶性竞争的情况也越来越多。比如企业间抢挖人才的现象屡见不鲜,无论是
随着信息技术的不断发展和企业信息化的不断进步,企业应用集成已经成为了一个重要研究课题。企业前期建设的DNC、PDM信息系统采用分散式投入,造成信息系统间孤岛式运行,为了
当生产制造型企业将生产产品的部分转移到其他的国家后可以比转移之前获得更多的利润时(或可以得到更少的成本),生产能力转移就可能发生(邱斌,尹威2009)[1]。中国改革开放20年,各
提高经济竞争力、维护我国的国家经济安全是社会主义现代化建设中的根本要求,也是实现中国民族伟大复兴中国梦的必要条件。随着经济全球化的不断深入,各国的经济联系逐步加强
相比于传统的激光、红外传感器,视觉传感器不仅价格低廉,而且采集的数据信息更丰富。基于图优化的视觉SLAM技术成为机器视觉领域中的研究热点之一。在视觉SLAM技术中,通过相