改进的模糊Q学习方法及其在RoboCup中的应用

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:hstiantian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在multi-agent系统中实现agent之间的竞争与协作,该文提出了一种新的在线学习方法,即:改进的模糊Q学习方法,在这种方法中,agent通过增强学习方法来调节模糊推理系统,进而获得最优的模糊规则.为了改善学习的时间,Q学习方法中的奖励值并不是固定的,而是根据状态而变化.将改进的模糊Q学习方法应用到RoboCup仿真环境中,使智能体通过在线学习获得跑位技巧.并通过实验证明了该方法的有效性.
其他文献
【正】 据《竹书纪年》所载,“夏帝芬三十六年作圜土。”所谓圜土,是集中关押罪犯的地方,用土筑成圜形的围墙,故名圜土,也即狱城。周朝的监狱制度因袭夏商而有所发展。奴隶主
为了解某院外科Ⅰ类切口手术患者围手术期抗菌药物应用情况,对236例此类患者病历资料进行回顾性调查分析。236例患者全部使用了抗菌药物,预防用药率100%;在术前0.5~2h用药者10例(4.24
目的提高平战状况下医院感染、传染病疫情及生物武器防控水平。方法以Delphi和NET为开发工具,c/s+B/s架构,结合JavaScript+ASP+XML+web Service等技术,建立功能强大的医院感染监控及疫
<正>近两年新消费浪潮之下,元气森林、王饱饱、花西子、完美日记、蕉内、钟薛高、三顿半咖啡、泡泡玛特……一大批"新消费品牌"迅速崛起,群星闪耀。他们只花了短短数年时间,
SOC(System On Ch ip)将原来分立器件实现的CPUs、DSPs和存储器等模块整合在一个单芯片内,这种设计方法使得外围的IP模块的复用变得非常重要。而复用的IP模块必须嵌入到SOC中进行系统验证后才能使用,系统功能验证通常使用原型机的验证方法。该文论述了汉芯SOC的FPGA原型机验证环境的实现方法,以及如何使用串口建立起PC机与原型机的通讯。原型机验证中的一个普遍问题是ASIC设计代
【正】 根据我国法律的规定,刑事辩护有委托辩护和指定辩护两种。委托辩护是由被告人或其近亲属委托律师、人民团体或被告人所在单位推荐的,或者经人民法院许可的公民及其近
【正】 性犯罪,因其卑劣、污浊、肮脏和丑恶,即便作为学问领域,也鲜有人进行深入的探素。至今,我国刑法学界只有若干涉及性犯罪的短论和资料性的编译书,显示学术份量的专著尚
多节点、密集结构是舰船独立电力系统的特有结构,对此类电力系统,目前还没有可行的实时仿真方法。该文通过讨论电力系统全数字实时仿真软件Hypersim的特性,提出了以Hypersim为平台,解决密集节点独立电力系统实时仿真问题的方案,即采用解耦元件将整个任务分解为若干子任务,各子任务由不同的CPU单元分开处理,彼此间交换数据,亦即将一个完整的数学描述矩阵分为小矩阵以提高运算速度。基于多节点、密集结构独
德育的好坏是衡量一个学生的标准,在新课改政策的推动下,高中的德育工作逐渐成为教育的重点,在教学中占据了很多的位置,是当前教育重要的一部分。因此,本文主要以新课改背景
【正】 中共中央《关于经济体制改革的决定》指出:“经济体制的改革和国民经济的发展,使越来越多的经济关系和经济活动准则要用法律形式固定下来。国家立法机关要加快经济立