自学习策略价值风险模型研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:shinetar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是计算机科学中一个非常重要的研究领域,它研究的内容是如何使机器能够像人类一样感知环境,以及代替人类去完成一些复杂的工作。计算机博弈是人工智能的一个重要研究方向,研究者们发现将深度学习、强化学习和自主学习相互融合后可以产生很强大的计算机博弈系统。AlphaGo就是这么一款计算机博弈系统,该博弈系统攻克了人类最为困难的棋类游戏之一。在对该博弈系统进行研究时,发现其算法在给出最佳行为时,并未给出棋局中当前玩家面临的风险;该算法目前适用于敌我双方交替出手,尚未给出处理连续出手情况,缺乏通用性,具有风险预测和更加通用性的机器博弈算法更具有现实意义与应用前景。基于以上背景,受AlphaGo算法的启发,本文深入研究了策略网络、价值网络、蒙特卡洛树搜索算法,提出了自学习策略价值风险网络模型算法,并设计一个仿真系统验证该算法,本文主要内容和创新点如下:(1)提出了一种风险网络模型算法。该模型针对博弈系统未给出推荐行为的风险预测,本文提出风险网络模型,利用了深度学习方法,通过卷积神经网络来提取博弈局面的特征,然后再经过多层全连接后,按数据标签进行训练。在数据标签中包含了各类风险参数,经过大量数据训练后的风险网络模型,就可以根据输入博弈局面预测出各种风险估值,在推荐某个行为的同时给出了面临的风险预测。(2)提出了一种自学习策略价值风险网络模型算法。针对分别训练策略网络,价值网络和风险网络需要消耗很长的训练时间和很多的计算机资源问题。本文提出将策略网络、价值网络和风险网络融合到一个策略价值风险网络,经过融合后的网络,可以一次训练成型,节省训练时间和降低了训练成本。本文同时采用蒙特卡洛树与策略价值风险网络构建了自学习策略价值风险网络,使得该算法不依赖于外部的博弈经验数据,解决了收集样本数据的问题。(3)提出了一种新蒙特卡洛树搜索算法。该算法针对原有算法仅支持博弈双方交替出手,缺乏通用性进行了改进,本文提出了支持连续行为的蒙特卡洛树搜索算法,在原有算法的基础增加节点标识,改进了节点扩展和反向传播方式。改进后的算法可以适用于更广泛博弈场景,不受再受限交替出手的约束。(4)设计并实现了一个简单系统用于验证自学习策略价值风险网络算法。本文以扑克博弈场景构建了一个仿真系统,设计与实现整体架构和各个模块。
其他文献
本文通过对法国和中国会计制度的比较分析 ,论证了会计制度的形成受制于特定的社会经济条件。基本经济条件的变化会引起制度创新的必要。中国的发展中大国的特点决定了其会计
心理健康和机体健康对延缓人的衰老有同等重要的作用。由于老年病人机体器官的衰老伴随着复杂的心理变化,故情绪波动较大,表现为孤独、抑郁、固执、悲观、绝望等,与其他病人比较
本文研究了在随机环境下风险模型的破产问题。利用递归方法,获得了破产前盈余的分布和描述破产严重性的预警区的分布,推广了已有结果.
慢性乙型肝炎(简称慢乙肝)目前尚无特效治疗,病情迁延不愈,致使患者心理及经济负担沉重。我们通过对120例慢乙肝病人进行心理类型分析并采取相应的心理护理,取得了理想效果。现
·小编悦读志·是时候来一场村上式旅行了!跟着他去了波士顿、冰岛、波特兰、纽约、芬兰、老挝……一路都被他妙趣横生的话逗得哈哈大笑,真想把书里的那些地方按照他
近期全球人寿保险行业的发展非常不均衡,发达国家的市场继续保持着大规模和低增速,新兴市场规模小增长强劲。2017年中国寿险市场增长率超过21%,拉丁美洲的市场陷入停滞,中东地区最大的阿联酋市场增速大幅下降。主流观点认为造成这些现象的主要原因是经济、人口以及制度因素,但是这些因素并不能充分解释问题。本文重新审视文化因素对人寿保险需求的影响,一方面希望丰富人寿保险需求的研究,另一方面希望可以通过文化的角
2015年6月19日,吉林电子法院正式开通上线,这是我国首家“全业务覆盖、全天候诉讼、全流程公开、全方位融合”的电子法院。(1)其实,电子诉讼并不是独立存在的诉讼程序,它只是
本文研究了算子代数的K-理论.利用代数拓扑方法,获得了复Hilbert空间上正常算子所生成算子代数的K-群与该算子谱几何性质的定性关系.
本文在以往学者研究的基础上,以国内二十四家中小商业银行为对象,采集2005—2011年相关数据来分析银行跨区域经营绩效,采用多元回归实证研究,对相关问题进行初步的回答,进而
目的:构建并应用“父母学堂”初产妇产后健康教育模式,评价实施效果,验证该模式的实施能满足初产妇产后健康教育需求,提高初产妇母婴护理能力,促进母婴健康。方法:本研究分为