面向决策仿真的Agent模型中强化学习方法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hujieguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种无监督的机器学习技术,通过试错法即能找到最优解或者接近最优解,并能实现动态环境下的在线学习,因此强化学习被公认为是构成智能Agent的理想技术之一。决策仿真系统具有环境复杂、状态不确定等特点,如何将强化学习应用到决策仿真领域,是当前研究的热点与难点。本文主要研究强化学习方法并应用到多Agent决策仿真系统中。首先根据分层学习和决策的思想,给出了基于Agent的决策仿真系统框架。接着本文提出了一种基于强化学习的Agent认知模型,将环境变化预测引入Agent模型,使Agent对环境在一定程度上具有前瞻性的预测能力。在对已有强化学习算法分析的基础上,提出了改进的单Agent Q学习算法,使系统中每个Agent都能根据需要自主学习。随后,本文分析了多Agent强化学习中的信度分配问题,并提出了多Agent联合Q学习算法,以提高整个多Agent系统的学习效率。最后,本文通过对某决策仿真系统的实验,对本文提出的Agent认知模型和强化学习算法进行验证。实验表明,本文提出的Agent认知模型能够有效的应用于决策仿真系统,且强化学习算法提高了Agent的学习效率。
其他文献
随着Internet的快速发展与普及,如何在开放、动态、难控的网络环境下实现各类资源的共享和集成已经成为计算机软件技术面临的重大挑战之一,流程建模技术也受到更为广泛的关注。
随着互联网的发展和智能终端的普及,短信、微博、微信等现代信息传播手段被广泛应用,它们都具有使用便捷、传播快速等优点。相对而言,短信对受众的年龄与知识水平、移动终端
进入21世纪以来,各类网站社会性网络化的倾向明显,越来越多的网站集购物、交友、聊天、论坛和博客于一体,为用户提供全方位的服务。作为个性化服务的一种方式,个性化推荐系统能够
随着网络通信技术的飞速发展,多播路由的通信方式受到普遍重视。但当前多播路由算法的研究大多针对无约束多播路由问题和时延受限多播路由问题,在应用中缺乏典型性和实效性。本
关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、
卫星舱装填问题可简单描述为:将给定的仪器和设备等有效载荷合理地、紧凑地放置在卫星舱的承载板上,满足给定的性能约束前提下,使舱室尽可能小。求解该问题时,一般都是将仪器
人类基因组计划和许多物种基因组测试的完成标志着一个新的生物学研究时代─后基因组时代来临了,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重
微博作为一种新兴的社交媒体,近几年发展迅速,影响越来越广泛,逐渐成为一种重要的交流平台。微博网络的大量用户组成了不同的虚拟社区,有效挖掘具有网络结构内聚性和用户兴趣
根据测评系统功能可定制和可扩展的要求,测评系统采用了基于组件的软件开发方法。该系统由基于组件的可扩展动态框架、公共库组件、测评组件、密码算法组件和XML文件五部分组
本文通过分析新浪、搜狐、网易、腾讯、百度、中国新闻网、中华网、21CN网这八大网站中的噪音数据特点和它所产生的影响,并利用HTML的结构特征,提出了一种基于区域分块的HTML