面向一般图的可容错协作学习算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:cbg668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多臂老虎机问题近年来在推荐系统、机器人技术和生物社会学等领域有着广泛的应用。该问题具体可描述为,给定一组未知选项,如何根据某种策略进行一系列选择,达到预期的最优化目标。针对此问题的单智能体的解决方案是过去的研究重点,而近年来更多的研究工作转向对多智能体的多臂老虎机方案的探索。本文研究了基于一般图的多智能体的协作式k-臂老虎机问题。单个智能体作为一个最小的学习单元进行本地探索,同时多个相同的智能体单元之间相连接构成通信网络图。图上的每个智能体节点之间是任意连接的,即图的拓扑结构为一般图。同时,每个智能体节点都仅有有限的记忆空间和通信带宽。研究目标是让每个智能体节点选择到k个臂中的最优选项(即最优臂)。最近的一些研究表明,通过智能体节点之间的协作的方式虽然可使学习效率有所提高,但这些研究工作中都针对通信图的拓扑结构进行了假设,即通信图是完全图或结构良好的双随机图。然而,这种假设在实践中并不总是能够满足。同时,有限的记忆空间和通信带宽往往也限制了智能体节点之间的协作。因为每个智能体节点会出现本地学习经验不充分,从网络图中其它对等智能体中获得的经验信息也有限的情况。此外,智能体节点在学习过程可能会遭到破坏,恶意节点以共享其伪造的经验信息(或随机信息)的方式干扰正常智能体节点的学习过程和结论。在此情况下,资源的限制可能极大地制约着学习过程的可靠性。因此,如何基于一般图,在记忆空间和通信带宽有限的的情况下解决上述问题,同时考虑一定的容错性,这些都是面临的挑战。为了解决上述问题,本文提出了一种“三阶段协同学习算法”。在每一步中,智能体节点通过在一般图上轻量级随机游走的方式彼此分享它们的经验信息,然后再根据随机记忆下的建议信息决定尝试拉动k个臂中的哪个臂。此后,智能体节点最终根据所尝试臂反馈的奖励来更新其自身的采用值(即更新本地偏好臂)。本文理论分析部分表明,即使仅利用有限的记忆信息和通信资源,所有智能体节点最终都会以高概率学习到最优臂。理论分析部分还揭示了所提出的算法可以容纳的已损坏智能体节点的数量的上限。最后,通过在合成数据集和真实数据集上进行的大量实验,验证了本文所提算法的有效性。
其他文献
糖尿病型心肌病是造成糖尿病患者心力衰竭和死亡的主要原因。糖尿病分为Ⅰ型和Ⅱ型,其中高血糖是Ⅰ型糖尿病晚期并发心肌病的主要病理因素。已有研究表明,高血糖能破坏心肌细胞线粒体功能,使其成为活性氧(reactive oxygen species,ROS)和促凋亡因子的主要来源,最终导致心肌细胞的死亡。由于心肌细胞在心脏中占据重要地位,因此心肌细胞线粒体受损成为糖尿病型心肌病的重要病理生理学基础。目前研究
学位
铝/铜异质合金结构件在降低成本、实现轻量化的同时可以做到优势互补,在新能源和电气等行业具有良好的应用前景。然而铝、铜因物理化学性质差异大,采用传统焊接方法难以获得性能优良的接头。而采用常规搅拌摩擦焊(Friction Stir Welding,FSW)对铝/铜异质金属进行焊接时,虽然获得了表面成形良好、内部无缺陷的接头,但仍面临易产生较硬脆的金属间化合物(Intermetallic compoun
学位
土工格栅是一种新型土工合成材料,多用于提高加筋承载面的嵌锁、咬合能力,增强基体的稳固性能,被广泛应用于边坡防护和各种公路、铁路等路面增强等领域,其中应用最为广泛的是塑料土工格栅。随着市场对土工格栅性能的要求日益提高,传统单向和双向塑料土工格栅越来越难以满足实际需求,在这种背景下,多向土工格栅应运而生。随着坦萨公司研制的三向土工格栅进入我国市场,对多向土工格栅的研究吸引了越来越多的关注,多种新型多向
学位
随着经济与社会的快速发展,能源短缺与环境恶化等问题日渐突出,制造业的低碳化转型升级迫在眉睫。镁合金被誉为“21世纪的绿色工程材料”,具有质量轻、高强和易回收等突出优点,在航空航天、轨道交通和汽车等领域的应用前景广阔。镁合耐腐蚀性能较为薄弱,成为限制其大规模应用的主要原因之一。通过塑性成形工艺和热处理,能够改善镁合金的微观组织,实现对其耐腐蚀性能的提升。其中,挤压成形是镁合金型材的一种重要加工方式,
学位
超细铜粉在化学、环境治理和电子等领域具有广泛的应用前景。目前超细铜粉主要采用化学法制备,但复杂的制备流程复杂导致其成本较高,使超细铜粉的应用受到限制。球磨技术是制备超细粉末的一种重要方法,但对于高延展性纯铜,常规球磨过程中容易发生塑性变形和冷焊而无法被高效细化。本文在常规球磨的基础上添加一定数量直径0.5 mm的不锈钢微球作为微细磨料制备铜粉,采用扫描电镜(SEM)、透射电镜(TEM)、XRD、激
学位
高速发展的无线通讯技术使人类社会与其周围的电磁环境密切相关。电磁波的无序过量辐射不仅会干扰各种电子设备,还会危害人体健康并影响人类赖以生存的自然环境。如何在利用电磁资源的同时保证适合人类生存的环境是当今世界各国重视与关注的问题。除此之外,现代战场复杂的电磁环境也使得电磁吸收在军用领域中有着重要的战略地位,在面对以电磁波为媒介的先进探测系统时如何保证武器装备的生存能力也是各国的研究重点之一。在此基础
学位
为了解决能源短缺问题和实现碳达峰、碳中和目标,世界各国政府投入巨大人力、物力和财力来开发清洁、可持续的新能源。随着风力、水力、地热能和潮汐能等清洁可再生能源不断取代石油、煤炭、天然气等化石能源,亟需开发研究出高效安全的能源中转和储存设备。超级电容器因其具有长循环稳定性、高功率密度等优势,受到了广大科研工作者的青睐。但是由于普遍存在能量密度较低的问题,仍需通过大量的研究以开发出兼具高功率密度和高能量
学位
2022年1月21日,最高人民法院发布了新修订的《关于审理证券市场虚假陈述侵权民事赔偿案件的若干规定》。这是最高院经过多年酝酿、论证后对2003年证券虚假陈述司法解释的重要修订。结合此前的《中华人民共和国证券法》和《最高人民法院关于证券纠纷代表人诉讼若干问题的规定》等系列法律法规,我国证券虚假陈述民事赔偿制度的法律架构不断完善。但是,实践是检验真理的唯一标准,证券虚假陈述案件的司法裁判同样值得关注
学位
投票选举,在日常生活中我们经常见到,大到国家领导人的选举,小到一个班级班长的选举,投票选举已经覆盖到我们生活的方方面面。在进行选举的时候,我们总是希望选举的结果公平公正,但是有时候总存在一些人或者团体为了自己的利益,打破这些原则,比如通过贿赂或者控制或者操纵选举实现自己想让某个人赢的目的。这些行为是无法避免的,但是为了实现我们所追求的公平公正,我们就想到了另一种方法,即我们可以制定足够复杂的选举规
学位
随着社会法治水平的提高、现代科学技术的进步,监狱刑罚执行过程中面临的“人权保障”与“刑罚惩罚”的矛盾问题、押犯结构复杂与教育改造方式单一的矛盾问题、监狱相对封闭与对社会协助需求的矛盾问题也日渐凸显。国家在进行监狱现代化建设、治本安全观、五大改造、智慧监狱、社会矫正等体现法治、人文、科学的多元化改革的同时,也面临着诸多困难和挑战。第一部分介绍了监狱刑罚执行的概况。介绍了我国监狱刑罚执行的原则及目的,
学位