【摘 要】
:
强化学习并不需要环境模型,通过智能体和所在的环境的自主交互进行学习。现已成为多智能体系统与机器学习等领域的研究热点。多智能体系统常被应用于开放、复杂和动态变化的
论文部分内容阅读
强化学习并不需要环境模型,通过智能体和所在的环境的自主交互进行学习。现已成为多智能体系统与机器学习等领域的研究热点。多智能体系统常被应用于开放、复杂和动态变化的环境,单个的智能体的能力已经不能够胜任所面临的任务,不仅是具有相同目标的系统,而且还有相异目标的系统。同时,智能体还必须具备学习的能力以适应环境的动态变化。但是传统的单智能体学习原理并不适用于多智能体环境,多智能体强化学习的框架为马尔可夫对策,本文在研究对策论理论基础的同时围绕多智能体强化学习中出现的时间信度分配问题与结构信度分配问题,提出了新的学习方法。本文中采取的实验平台是VC#.NET,研究对象为追逐对策问题。将多个猎人智能体与一个猎物的追逐对策问题看成是具有两个局中人的离散动态对策问题,考虑了距离影响、走步影响和信度分配三个因素,构造了信度分配函数,并且通过计算各种可能的策略下猎人对逃跑者的距离来分配各种信度,包括时间信度和结构信度,并得到猎人的支付矩阵,求解该矩阵即可得到每次走步时双方的最优策略。以此作为双方策略的数学模型,并在此基础上提出了基于信度分配的多智能体强化学习算法本文的研究成果与创新见解是:●深入分析了多智能体强化学习算法及研究现状并作出了一定的比较;●结合在此方面同行所做的前沿工作,提出了新的基于信度分配的多智能体强化学习算法。●通过实例分析与仿真验证证明了其算法的收敛性和有效性。
其他文献
参数曲线曲面凸性分析和曲面拼接问题都是计算机辅助几何设计(CAGD)中的重要课题。本文对Bezier、B-样条两类参数曲线曲面在造型中的凸性问题做了进一步研究,主要是从几何上探
发布/订阅通信模型具有异步、松耦合和多对多通信的特点,适应了目前动态多变的大规模分布式计算环境,在诸多领域得到了广泛应用。发布/订阅系统已经成为目前构建大型分布式系统
互联网的飞速发展给网络通信设备带来了巨大的发展机遇。网络对通信设备的需求,使得市场上出现了各种各样的通信设备。各种通信设备的大量出现使得相应设备的测试仪器也相继出
电视广告监播一般来讲需要了解广告的播放时间、播放质量、播放长度。为了对播放质量进行检测,应该从图像的角度监播。而根据调查,目前应用中的电视广告自动监播系统中,主要
嵌入式系统作为实现设备小型化、智能化的一个重要元素,目前已经广泛应用于国防、工业、交通、能源、信息技术以及日常生活等各个领域,并发挥着极其重要的作用。嵌入式系统软件
电子商务是一种新兴的贸易形式,它的出现增加了贸易机会,降低了贸易成本,简化贸易了流程,提高了贸易效率。电子商务的显著特点是高效和交易成本低。在交易过程中,消费者、商家、企
目前,传统CMOS工艺已经接近发展的极限,依靠缩小器件尺寸提高存储器容量和密度的方法在可以预见的未来将变得不可行。同时,由于处理器和存储器之间的性能差距越来越大,计算机体系
机器学习是人工智能领域中前沿课题,其基本特征之一就是能够有效处理不确定数据信息。一类重要的机器学习类型就是导师指导下的学习过程。本文借鉴Rough 集基本思想,研究基于不
文件传输协议FTP (File Transfer Protocol),它是基于TCP的一个应用,最早设计就是专门用来在两台不同的主机间传送文件,即使在今天仍然得到广泛的应用。但是,标准FTP是根据以前那
随着计算机网络技术和多媒体数据压缩技术的不断发展,通过网络传输实时音视频数据成为可能。如今嵌入式DVR(Digital Video Recorder)系统不仅仅提供本地录像的功能,同时集中了