一种多重优先经验回放的麻将游戏数据利用方法

来源 :重庆理工大学学报(自然科学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络。为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证。实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5%。
其他文献
极端恶劣天气对城市轨道交通运营安全产生严重影响。为提高轨道交通运营安全主动防控水平,以郑州地铁5号线2021年“7·20”重大事故为基础,分析事故原因,阐述城市轨道交通防汛工作重点任务及雨天面临的风险,从预警响应机制、风险隐患管控、应急处置等方面详细梳理防汛措施,针对防汛措施存在的不足,从挡水设计、险情感知、联动处置等方面给出优化建议,以期提高城市轨道交通应对恶劣天气的防控能力,保障运营组织安全。
21世纪以来,中蒙两国经济合作日渐紧密,蒙古国的“草原之路”策略与中国的“一带一路”倡议完美呼应,双方达成“三位一体、统筹推进”共识后,中蒙之间的经济贸易和投资合作进入新的阶段,中蒙矿业投资更是两国经济合作的重心。蒙古国矿产资源储量丰富,但矿业发展水平低,而中国矿产资源需求量大,矿业发展水平较高,中国与蒙古国矿业经济结构存在较高互补性,具备深入合作的基本条件。但是近年来,中国企业在蒙古国矿业领域开
为合理开展富硒(Se)土壤资源利用与富硒农产品开发,结合湖南省耕地重金属加密调查项目,进行了湖南省耕地土壤硒的含量分布特征、空间变异特征及其影响因素等研究。结果表明:湖南省耕地土壤硒平均含量为0.56 mg·kg-1,是全国土壤硒元素背景值(0.29 mg·kg-1)的1.93倍;湘西南区土壤硒平均含量最高、湘北洞庭湖区平均含量最低;湘西南区变异系数最大,离散程度高,分布不均匀;湘南区变异系数最小
<正>在一次中考复习教学研讨活动中,一道课堂习题的教学吸引了笔者的"目光",催发了笔者的思考,思考过后,笔者有了"想说些什么"的愿望.一、教学再现题目:已知,抛物线y=-x(x-3)+c(0≤x≤3)与直线l:y=x+2有唯一的公共点,求c的取值范围.教学片断1:教师让学生独立思考并尝试动手解答,几分钟后,教师展示一位学生的解答.解答过程如下:
期刊
报纸
<正>《普通高中语文课程标准(2017年版2020年修订)》中指出教师要“积极利用与开发各种课程资源聚焦课程目标,优化课程资源,拓展学生的视野,促进学科核心素养的建构和发展”。[1]随着新课程改革的推进,学科融合的教学方式备受关注。学科融合式学习是依据一些源于学生生活现象的学习或研究主题,将不同学科的知识进行融合的学习方式。
期刊
建立高效液相色谱-质谱/质谱法测定纺织品中的全氟己烷磺酸(PFHxS)的方法。样品经甲醇超声提取,提取液经C18色谱柱分离,以多反应监测模式进行定性和定量。此方法检出限为0.3μg/kg,定量限为1.5μg/kg,平均加标回收率为88.13%~93.04%,相对标准偏差为2.05%~4.37%。本方法适用于纺织品中PFHxS的快速测定。