动态联盟收益值的再励学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lfm888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联盟形成的收益值是模糊和不确定的,难于计算,而联盟收益值在成员变化的情况下的计算就更为复杂。Lerman等人实现了动态联盟Agent进出联盟的管理方法,Chalkiadakis则研究了不确定情况下联盟的再励学习,但没有涉及联盟成员变化情况下的收益值动态性。论文定义了带折扣率的估计核,给出一种再励学习算法来计算联盟成员变化后的收益值.深化了Chalkiadakis的工作。实验结果验证了该方法的可行性和正确性。
其他文献
来中医医院神志病科门诊的,虽以失眠、焦虑、抑郁等心理疾病患者为主,但是亦有许多认知障碍、情感障碍的中老年患者上门求医,且以女性为主。而在这两类患者中,大部分存在严重的记忆衰退、语言表达困难,或者反应迟钝,甚至出现骂人、不合情理的行为、夜间躁动等精神症状。还有一些患者则是对脑健康十分关注,觉得自己学习新知识的效率不如以前,或者做事的反应和速度比以前慢,但生活、工作、社交还没受到影响,想让医生帮助诊断
提出了一种基于人眼JND门限的多分辨率水印嵌入算法。按照JND门限决定水印嵌入强度的小波域水印嵌入算法能充分利用人的视觉特性,在不影响图像质量的前提下尽可能提高水印的嵌
患者23岁,孕1产0,孕36周.诉上腹不适,食欲不佳半月,胎动减少1天而于2002年4月23日入院.
信息化时代下计算机软件得到了充分应用,软件开发也得到了行业的重点关注,当前的软件已经从单项业务处理转变为多层次结构的技术发展模式。为了更好地进行拓展和维护,以便于
文章采用文献计量学和知识图谱的方法与技术,分别从文献数量与年份分布、来源期刊、关键词、文献被引频次、作者五个维度对CNKI数据库中1997年至2014年间我国大学生信息素养
文章通过分析蕴涵型复合命题的真假涵义,并引入蕴涵度和蕴涵率两种度量,而得到了一种关于蕴涵型复合命题的真值计算新方法,即支命题之间的实际蕴涵度或蕴涵率对复合命题中描述蕴
SERVICE SYSTEM DESIGN  服务设计简单来说,就是通过探索系统中的各个利益相关者的需求,构建一个整体服务框架,并对服务框架中的各类触点进行设计。旨在通过服务来为用户及系统中的其他利益相关者创造更好的体验和价值。  2016年,工业和信息化部联合国家发改委和中国工程院共同发布的《服务型制造发展专项行动指南》也明确把“设计服务提升行动”作为四大主要行动之一。这表明工业设计已经成为服务
肝癌患者一般在确诊时已属晚期,手术机会已错过,只能采用放疗、化疗和免疫治疗等保守疗法.而放疗、化疗的毒副反应极大.临床观察证实有效、正确的辨证施护则可以提高本病患者
基于agent技术,对城市交通信号进行多agent协调控制研究。首先给出了路口agent的组成和结构,然后提出了路口等待车辆数矩阵、道路因子矩阵、交通负荷度矩阵和绿信调节矩阵,在此