【摘 要】
:
在不完美信息扩展式博弈的研究工作中,如何利用次优对手的弱点来获得更高的博弈收益是难点问题之一。常用方法是对手采用建模。该方法首先对对手的策略建立模型,然后对所建立的策略模型计算最佳反应策略。但由于对对手策略所建立的模型未必是准确的,从而导致计算出的最佳反应不能保证是真正意义上的最佳反应。为了避免对手建模,本文提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾
【机 构】
:
南京大学软件新技术国家重点实验室,南京 210023 中国科学院计算技术研究所,北京 100080
【出 处】
:
2013年中国计算机学会人工智能会议
论文部分内容阅读
在不完美信息扩展式博弈的研究工作中,如何利用次优对手的弱点来获得更高的博弈收益是难点问题之一。常用方法是对手采用建模。该方法首先对对手的策略建立模型,然后对所建立的策略模型计算最佳反应策略。但由于对对手策略所建立的模型未必是准确的,从而导致计算出的最佳反应不能保证是真正意义上的最佳反应。为了避免对手建模,本文提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化,将其扩展到在线博弈的场景中,实现对次优对手弱点的利用。在线博弈中计算各个信息集的虚拟价值是在线虚拟遗憾最小化的核心。本文提出了从博弈结果中估计虚拟价值的方法,并给出两种估计手段:静态估计法和动态估计法。在静态估计法中,基于对手使用静态策略的假设,直接从博弈结果的分布中来进行估计,并对每个结果给以相等的估计权重;而在动态估计法中,则对新产生的博弈结果给以较高的估计权重,使其能对对手的策略变化做出快速反应。此外,本文也从理论上分析各个信息集虚拟价值的估计值与其真实值之问的关系。基于两种估计方法,本文提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与四种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比。实验结果显示本文所提出的算法不仅对较弱对手的利用效果最好,还能在与四种对比算法的一对一的比赛中取得最高的胜率。
其他文献
目的 探讨安多霖对微波辐射致大鼠生殖损伤是否有预防作用及有效剂量.方法 二级Wistar雄性大鼠100只,随机分为4组,即正常对照组、辐射对照组、1.5g安多霖预防组、3 g安多霖预防组,采用30 mW/cm2微波辐射大鼠,于辐射前14d开始灌胃给药,每天1次,连续14d,安多霖预防组给药量(给药浓度)为1.5g×kg-1×d-1 (0.15 g×ml-1)和3 g×kg-1 ×d-1(0.3 g
目的 微波辐射对健康的危害越来越引起国内外学者的广泛关注。研究表明,心脏是微波辐射敏感的靶器官之一,尤其心脏传导系统最为敏感。窦房结是心脏传导系统最重要的组成部分,然微波辐射致窦房结损伤规律及量效关系未明,其致伤机制尚未见报道。因此,研究微波辐射致窦房结损伤效应及其机制,将为深入研究微波辐射致心脏损伤的分子机制和防治措施提供新靶标和思路,为寻找敏感诊断指标和制定防护标准提供实验依据。
目的 放射性肺损伤(RPI)是胸部肿瘤放疗和骨髓移植预处理常见而难治的并发症之一,也见于战时核辐射和平时核事故,其发生发展具有显著的种属和个体差异,此种差异存在的机制尚未揭示.C57BL/6J小鼠于γ射线照射后易发生放射性肺纤维化(RPF),而C3H/HeN小鼠不易发生RPF,肺成纤维细胞是RPI的主要效应细胞,DNA损伤是γ射线对细胞的主要损伤效应,TRF2为端粒结合蛋白,其在端粒长度维持和DN
Hypoxia-inducible factor 1 (HIF-1) has been associated with distant tumor metastasis ; how ever, its function in the complex and multiple metastatic processes have not been fully elucidated yet.In the
目的 探讨PTEN、SOX2、Survivin和Ki67在视网膜母细胞瘤中的表达及其与临床病理因素的关系.方法 采用免疫组织化学方法检测41例视网膜母细胞瘤切片和10例正常视网膜组织中PTEN、SOX2、Survivin和Ki67的表达情况,分析四者分别表达及共表达与视网膜母细胞瘤患者性别、临床分期、视神经受侵犯情况和分化程度的关系.所有数据应用SPSS13.0软件进行统计.结果 1.免疫组织化学
节镍型双相不锈钢2205(DSS2205)兼有奥氏体不锈钢与铁素体不锈钢的特性,具有相当于奥氏体不锈钢两倍的强度、优越的耐蚀性及良好的韧性,且节约了稀缺资源镍.该钢种在石油化工、海洋、煤电、建筑等行业得到广泛应用.目前,DSS2205薄板主要应用于腐蚀介质管道和容器的衬里、精密仪器设备、车辆工程等行业.电阻点焊是焊接金属薄板最重要的连接技术之一,双相不锈钢的点焊具有广泛的应用前景.本文采用三相逆变
针对材料学科典型的金相组织,以球墨铸铁为例,使用三种组织定量软件:Image tool,Photoshop,Axio Vision分别进行图像分析,典型组织定量测定并比对结果。分析三种软件的优缺点,从而为以后的教学和科研工作提供更优化的组织定量分析软件作为参考,针对Axio Vision软件在金相组织定量分析特性进行详细阐述。
本文运用各种微观分析方法对运行40万公里后的地铁车轴进行深入研究,采用光学显微镜(OM)、体视显微镜(SM)、里氏硬度仪、扫描电子显微镜(SEM)、电子能谱仪(EDS)、三维形貌仪和透射电子显微镜(TEM)等设备分析不同过盈配合区域的微动损伤、剖面形貌以及微观组织.分析结果显示轮座部位外侧的硬度明显大于其它区域,而相对严重的损伤在内侧产生,其磨损机制主要为磨粒磨损、氧化磨损和剥落.剖面分析显示在损
千伏级锥束CT在放射治疗、外科手术、牙科诊断等领域都有广泛的应用。然而,频繁地使用千伏级锥束CT,也会给患者甚至医生带来额外的射线辐射损伤。相关统计结果表明,X射线辐射能够诱发很多癌症的发生,特别是儿童和女性对射线辐射异常敏感。因此,合理使用锥束CT,同时降低锥束CT辐射剂量,对于降低射线辐射并发症风险显得非常重要。本文以锥束牙科CT为基础,总结了降低锥束CT辐射剂量的常用措施,包括降低电流、局部
目的 基于近似熵对常压10%缺氧后大鼠脑电图(EEG)进行分析,探讨应用近似熵衡量缺氧对脑损伤程度的可行性.方法 Wistar雄性大鼠70只,由军事医学科学院实验动物中心提供,随机分为对照组和10%的缺氧组;利用军事医学科学院提供的常压低氧舱.采用多导生理仪分别于缺氧前及缺氧后即刻、6h、1d、3d、7d及14 d,对大鼠EEG及近似熵进行检测;在10%缺氧后6h、1d、3d、7d和14 d取大脑