Agent的强化学习与通信技术研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：sjzshiyijshan

【摘要】

：

Agent和多Agent系统的理论和技术已成为分布式人工智能和计算机科学技术的核心研究内容之一，其中通信和学习是Agent应具备的两个重要技术。对于处于不断变化的、复杂的外部环

【作者】

：

伍少成

【出处】

：

华南理工大学

【发表日期】

：

2006年期

【关键词】

：

人工智能多Agent系统强化学习算法 Agent通信语言通信协议电力负荷管理系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Agent和多Agent系统的理论和技术已成为分布式人工智能和计算机科学技术的核心研究内容之一，其中通信和学习是Agent应具备的两个重要技术。对于处于不断变化的、复杂的外部环境之中的Agent来说，必须具有学习能力，以适应自身所处的动态环境，需要有效的通信技术和方法，才能使Agent之间可以进行交互、协商与合作。在Agent的学习中，强化学习是其中主要的一类学习方法，被公认为是构成Agent的核心技术之一。通信协议是Agent通信中有效交换信息和知识的基础。本论文对强化学习和通信协议中的一些热点问题做了深入的研究，在前人研究成果的基础上做了一些有效的改进和有益的尝试。主要研究内容和研究结果如下： (1) 在深入分析强化学习的基本原理和Q-学习算法的基础上，结合Agent的知识和逻辑推理机制，提出一种基于知识的Q-学习算法(KBQL)。利用Agent的领域知识来缩小要学习的状态空间，从而加速强化学习算法的收敛速度，并采用Agent内部的学习机制，不断修正Agent知识的不准确性，提高学习算法的适应性和鲁棒性。通过对Grid World例子进行的仿真试验，其结果表明：即使是不很精确的知识，KBQL算法与常规Q—学习算法相比，在收敛速度上具有明显的优势。 (2) 对标准Sarsa(λ)算法中的资格迹进行了深入分析，得到一个改善的Sarsa(λ)算法，它的计算时间复杂度为D(|A|)，在此基础上设计了一个启发式回报函数，得到了一个带有启发式回报函数的Sarsa(λ)算法。启发式回报函数的引入，在理论上不会影响原有问题的最优策略，但可以利用Agent的知识，引导Agent在所期望的状态空间内进行搜索，从而改善学习算法的学习效率和收敛速度。 (3) 对一个分布式的RoboCup Soccer仿真环境中的Keepaway Soccer进行了研究，它是一个强化学习算法的测试平台。针对keeper的策略学习问题，根据足球常识设计了一个带有先验知识的强化学习模型，通过仿真试验，其结果表明具有先验知识的学习算法与无先验知识的学习算法相比，具有明显的优势。 (4) 通信语言和通信协议是Agent之间高效交换信息和知识的基础，本文在通信语言理论基础上，提出了一个可动态修改通信协议的Agent通信模型，使系统动态修改和添加通信协议，而不需要修改系统的源代码，从而大大减少系统的维护工作量，增加了系统的适应能力和稳定性。并结合电力系统的通信

其他文献

企业核心竞争力培育的对策分析

本文在对企业竞争力和企业核心竞争力的理解的基础上,从内外两部分分析了企业应该如何来培育的核心竞争力。

期刊

竞争力核心竞争力核心竞争力的培育

低温玻璃钢等材料的热膨胀系数

该文结合超导无磁杜瓦的研究，测定了某些低温玻璃钢等非金属材料的热膨胀系数，得出了玻璃钢等多层复合材料的线膨胀系是各向异性的，不同组分的玻璃钢其膨胀系各不相同，尼龙的线膨

期刊

热膨胀系数玻璃钢低温非金属复合材料

开搏通致低血糖反应1例报告

1病历摘要患者女,66岁.因心悸气短半年,加重1周于2005年6月3日入院.既往患高血压病史10年,血压最高达210/100mmHg.间断口服复方降压片、倍他乐克降压治疗.患2型糖尿病1年,服

期刊

开搏通低血糖反应

被动凝集法检测儿童肺炎支原体抗体的临床分析

目的对临床肺炎支原体（MP）感染现状进行分析,探讨MP采用被动凝集法检测的效果。方法将2016年1月至2016年12月在本院进行治疗的100例MP感染患儿作为研究对象,采用被动凝集法对所

期刊

儿童肺炎支原体(MP)凝集法抗体检测children mycoplasma pneumoniae （MP） agglutination antibody

肺表面活性物质治疗早产儿呼吸窘迫综合征给药时间的研究概况

肺表面活性物质(pulmonary surfactant,PS)已常规用于新生儿呼吸窘迫综合征的防治,其疗效肯定,并有大量文献报道其使用效果、给药方式、使用剂量等临床研究。但关于PS最佳给

期刊

肺表面活性物质呼吸窘迫综合征给药时间研究概况

疏血通注射液治疗不稳定型心绞痛的效果分析

目的分析疏血通注射液在不稳定型心绞痛治疗中的临床效果。方法选取我院2016年3月至2017年3月收治的84例不稳定型心绞痛患者作为研究对象,按照治疗方式的不同将其分为研究组（4

期刊

不稳定型心绞痛疏血通注射液血液流变学unstable angina pectoris Shuxuetong injection hemorheology

脉冲管制冷机在高温超导电性测试中的应用

该文介绍将脉冲管制冷机应用于高温超导电性的研究情况;结合对高T_c样品特性的测试,给出脉冲管制冷机在超导电性测试中的应用范例。理论分析和实验结果表明,利用脉冲管制冷机

期刊

制冷机脉冲管超导电性测试

新时代中国公民生态伦理观研究

党的十九大报告提出要把生态环境建设和生态环境的改善视为实现社会发展、人民幸福的重要任务。公民作为社会的主体,社会建设的主要力量,生态环境治理的主力军,公民对生态环境的改善和治理有着不可推卸的责任。但是,近年来我国部分公民生态伦理观存在一些问题,导致公民不能很好地践行生态伦理实践,从而影响社会整体的生态建设。因此,如何使公民树立正确的生态伦理观,践行生态伦理行为,成为了时代重大课题。本文以我国城市公

学位

新时代公民生态伦理观

大学生创新与创造能力教育探讨

叙述了大学生创新与创造能力教育的思想构建与价值，大学专业课教育现状，创新与创造能力人才培养和师资队伍建设，认为：大学在强化基础理论教育和专业课教育的同时，更要注重培养大学

期刊

大学生创新与创造培养教育

甘精胰岛素联合二甲双胍强化治疗2型糖尿病60例临床观察

目的：观察甘清胰岛素联合二甲双胍强化治疗在2型糖尿病的临床疗效。方法：对60例2型糖尿病患者,使用二甲双胍缓释片850mg早餐时口服加睡前10点钟皮下注射甘精胰岛素。抽取静脉血

期刊

甘精胰岛素强化治疗糖尿病Insulin glargine Intensification therapy Diabetes

Agent的强化学习与通信技术研究及应用

与本文相关的学术论文