序列决策问题中汤普森采样的理论与应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liyanfeiwoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中的很多问题可以被模型化为序列决策问题。在序列决策问题中,算法通过与未知且充满噪音的环境交互最大化累积收益。汤普森采样算法是解决随机序列决策问题最重要的算法之一,它使用贝叶斯启发式策略平衡序列决策问题中的探索利用权衡。虽然该算法在很多应用中被证明有效,对汤普森采样的理论分析还比较匮乏。复杂模型中信息在不同策略间的共享机制还没有被完全的理解,而汤普森采样能够平衡探索利用权衡的原因还没有彻底的研究。在很多应用领域,汤普森采样对环境的随机静态假设并不成立,这个不足之处限制了其在高动态和大规模问题中的实际应用。本论文对汤普森采样的理论保障和实际应用两个方面对当前研究进行了扩展。本论文的具体工作概括如下:1.通过使用鞅论为基础的分析方法,本文证明线性汤普森采样算法的频率损失上界与其贝叶斯损失上界和该问题的信息论下界相匹配。本文的理论分析量化了该问题中的探索利用权衡并且部分揭示了线性模型中信息共享的机制。本文还通过实验验证了该证明中假设的合理性和结论的真实性。2.通过损失分解和矩阵鞅论的相关理论,本文证明线性级联汤普森采样算法的期望损失上界与当前最优的上置信界算法相同。本文的分析指出线性级联汤普森采样算法在特征空间的各个方向都进行了充分的探索并最大化利用了已经得到的信息。本文还通过两个真实数据集的实验证明该算法相对于相关算法的优势。3.本文在汤普森采样算法中引入了协同效应。通过引入协同效应,算法可以捕捉环境的实时变化并相应调整其决策方法。实验证明协同汤普森采样算法在协同环境下优于标准汤普森采样算法。并且,本文还在线性模型和非上下文相关模型中提供了对该算法的损失分析。理论分析证明在协同环境下,该算法的性能优于标准的汤普森采样算法。4.本文设计并分析了协同组合级联汤普森采样算法以解决协同环境中的序列决策问题。通过研究收益估计量的方差变化,本文证明该协同算法可以有效的探索环境中未知的聚类结构,并利用环境中的协同信息加速算法的学习过程。本文还在模拟数据集中证明了使用协同信息优势。
其他文献
近几年来青年长租公寓成为各类资本的投资热点,市场需求在持续不断的增长,市场环境逐步成熟,国内大小品牌企业纷纷涌现在青年公寓市场,在市场快速扩张及资本的不断投入下,可以预测到在未来的几年,青年长租公寓市场竞争会日趋激烈。本文对青年长租公寓行业进行了研究,分析了Y企业现有的商业模式中存在收入来源比较单一、重资产模式下不利于企业快发展以及细分产品创业公寓没有形成核心优势这几个方面的问题。根据商业模式创新
称谓语使用最频繁的用语之一,对它的了解和把握是恰当使用语言进行交际的重要因素,在跨文化交际中更需要掌握不同语言中称谓语所体现的文化差异,才能成功地进行交际.
<正> 一、敬礼 敬礼是表示军人相互间的团结友爱,表示部属与首长,下级与上级的互相尊重。部属或下级应先向首长或上级敬礼,首长或上级应当还礼。这里讲的敬礼是指军人穿军装
男低音歌唱家斯义桂,是一位活跃在上国际舞台上的美籍华裔歌王,著名音乐家,世界十大歌唱家之一。他毕业于上海国立音专,后留在香港从事音乐教育工作,在抗战期间积极地组织各
住房,是人类赖以生存和发展的重要物质条件,是人类生存所必需的基本的生活资料。它不仅为人们提供生活、工作和休息的场所,同时也是保持其人格尊严、保障人身自由及发展完善
临床实践指南是缩小当前最佳证据与临床实践之间差距的决策工具,卫生经济学分析通过对卫生投入和健康结果进行比较,使有限的卫生资源得到合理配置和有效利用,是指南制订中考
随着我国社会主义市场经济的快速发展,企业市场经营模式复杂性不断提升,税务机关的合法有效征管面临着新一轮冲击。同时,社会主义法治进程的不断推进对“依法治税”提出新的
目的观察急性冠脉综合征(ACS)患者替罗非班治疗后过氧化物酶体增生激活型受体γ(PPARγ)与CD40/CD40L通路表达的变化。方法选取2016年12月至2017年7月邯郸市第一医院心内科AC
目的为评价汞、铬和锰化合物雌激素样作用.方法选用氯化汞、硫酸锰、氯化铬、三氧化铬4种化合物进行MCF-7人乳腺癌细胞增殖试验和雌激素受体竞争结合试验.结果10-9&#215;10-5
布列兹认为“未来音乐需要将想象性和理智性结合起来,进行系统化的发展,简而言之,即艺术需要与科学更进一步结合起来”。从人类音乐史的发展历程我们可以看到,精确的记谱法、乐谱