Q—learning算法及其在囚徒困境问题中的实现

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:strongit_likai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比了Q-learning算法与TFT算法,验证了Q-learing算法的优良特性。
其他文献
根据勘查提供的三亚市海棠湾龙楼岭公墓滑坡的基本特征,从地形地貌、物质组成、降雨影响和工程建设等角度出发,分析龙楼岭公墓滑坡的形成原因。通过稳定性计算,经多方案对比分析
龋病是危害人类口腔健康最常见的疾病,发病率高,且常有并发症。为了更好地开展儿童龋病防治工作,势必深入了解我市儿童龋病发病情况。我院口腔科于1996年3月,对成都市市区15
以甘肃省甘南地区玛曲县高寒草甸沙漠化典型地区的山坡中部和山前平地为例,对其不同沙漠化阶段土壤的有机碳、全氮含量进行了测定与分析。研究结果表明:土壤沙漠化过程中有机碳
为实现我国政府提出1995年消灭脊灰的目标,我市按照全国统一布署,统一要求,统一时间,统一技术方法分别于1993/1994,1994/1995,1995/1996,1996/1997,1997/1998年12月/1月5~6日
<正> 妇产科患者腹式手术后出现腹胀,是妇产科护理工作中常遇到的一个重要问题,是术后病人感到非常不适的常见症状。术后腹胀一方面是因麻醉使肠蠕动减弱及手术创伤刺激所致,
通过探讨硅藻土在沥青及沥青混合料中的改性机理,结合高温稳定性试验,研究硅藻土改性沥青混合料的高温性能,分析不同掺量条件下硅藻土沥青混合料路用性能改善状况。研究表明:硅藻
医学科研的任务是揭示人类生命运动的本质和规律,认识和根治疑难疾患,这不仅要依靠医学科研人员的聪明才智,还要依靠他们的科研道德。在医学科研工作中,每一个环节都存在着道
矢富罗莎又名粉红亚都蜜,属欧亚种,由日本东京都町田市矢富良宗先生育成,1990年11月品种登记注册,1994年引入我国.经多年观察发现,该品种具有特早熟、优质、抗病、耐贮运等优
应用胶原酶法分离并在显微镜下直接计数实体,观察了在不同的年龄大鼠胰岛细胞数量的变化.同步对动物血糖.尿糖和血浆胰岛素含量进行了测定。结果表明:大鼠的胰岛细胞数量随年龄增