基于模糊Q学习的Agent智能决策研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lgxbyc1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。目前主流的强化学习算法是Q学习算法,但Q学习本身存在一些问题。首先,Q学习算法不能适用于连续状态空间和动作空间的学习,其次,当状态空间很大时,Q表在内存中的存储以及查询都变得十分困难。最后,Q学习算法的学习速度较慢。本文针对RoboCup中的具体问题,结合模糊推理系统对Q学习算法进行了一些扩充和改进,使其适用于复杂环境下的Agent智能决策。本文的主要研究工作如下: 首先,提出一种模糊Q学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库可以为Agent的动作选择提供依据,通过这个规则库可以实现动态规划。我们将这个算法应用于RoboCup中,实现了踢球策略的优化。 其次,针对RoboCup中的截球问题,提出了一种多回报模糊Q学习算法。该算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习,通过学习得到一个完整的规则库。为了实现Agent短期利益和长期回报间的平衡,算法从不同角度考虑动作的回报值。我们应用该算法成功的解决了RoboCup中的截球问题和2VS1高层决策问题。 最后,提出了一种基于先验知识的模块化Fuzzy Q学习算法,用于解决连续状态空间下的多Agent学习问题。该算法采用模糊推理系统进行状态空间的泛化,使用先验知识以提高算法在初始阶段的性能。另外,为了解决复杂环境下的学习问题,算法采用模块化的方法对问题进行目标分解,并且在Agent的决策时考虑环境中其它Agent的动作,以实现决策的最优化。我们在RoboCup环境中验证了该算法,仿真实验结果证明算法可以有效的解决Agent合作问题。
其他文献
随着计算机应用技术的快速发展,作为生物特征识别的分支,人脸识别受到了越来越多的重视。这些年,人脸识别算法层出不穷,因此识别的正确率和效率都得到了很大的提高。在实际应
本文针对国内英语教学中存在的发音质量评价主观化的问题,研究了语音识别中的关键技术,包括语料库、预处理、端点检测、特征提取和隐马尔可夫模型(HMM)等,重点解决了声学模型的
互联网技术的迅速发展,对企业信息化建设提出了更高的要求。基于先进管理理念的ERP ( Enterprise Resource Planning )、CRM ( Customer Relationship Management)、SCM(Supp
生物特征识别技术在上个世纪后二十年内得到了迅猛发展,他在医学诊断领域中形成的一个分支,基于人体生物特征的医学诊断学,也受到了国内外众多研究者的关注。传统中医脉诊是
嵌入式系统的一个重要应用领域是移动通讯终端手机。通信技术的发展,大大提高了无线数据的传输速率和可靠性,电信业也已从传统的“运输行业”正转变为为用户提供新内容和增值服
随着计算机网络应用的不断深入,对安全协议进行分析和研究已经成为信息安全领域的一个十分重要的研究方向。形式化分析由于其精炼、简洁和无二义性逐步成为分析安全协议的一条
作为J2ME 的核心组件,KVM 被广泛地应用于各种手持设备中,如智能手机、PDA 等。这些设备有着共同的特点:使用电池作为主要能源。如何设计这些手持设备的硬件和软件,使其能够在有
近年来,由互联网所产生的数据极具膨胀,在如此巨大规模的数据中,准确地获得想要的信息,成为人们日益追求的目标。如何能准确、智能地返回给用户,成为近年来研究比较广泛的一
随着信息技术的发展和企业管理水平的提高,越来越多的企业更加希望了解自己的情况。OLAP技术在这样的环境和需求的推动下应运而生。OLAP发展到至今已经过了十多年的技术发展。
近年来,移动网络得到了飞速的发展,移动计算机正在得到日益广泛的使用,移动网络给人们的生产生活带来了极大的方便。移动用户对在移动互联网中使用多媒体和其它实时业务的需求也