非标准Multi-armed bandit的随机调度

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zxypost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要目的是拓展具有指数策略的multi-armed bandit (MAB)随机调度模型,使之更符合复杂的现实背景:(1)诸arm具有不同的切换限制;(2)诸arm具有不同的折现率;(3)机器随机中断引起的不完全信息。为此,本文的另一个目的是研究带限制的最优停时问题和非参贝叶斯,使之适用于上述非标准的MAB。在随机变量集合的层面上,在带限制的停时类范围内,讨论最优停时问题,运用经典的概率理论给出一般结论。这理论涵盖离散时间、连续时间、半马氏框架下所得的经典结果。大致分三个阶段:在第一阶段在单指标的随机变量集的框架下展开,首先引入允许停时类的概念,建立带限制的最优停时模型,讨论两类价值族和最优停时的性质;接着建构最优停时存在的充分条件,进而讨论价值变量族的局部性质、正则性等。在第二阶段,把最优停时问题拓展到双指标容许随机变量类上,研究最优双停时的性质,所得结果自然可推广到多指标的情形。第三阶段,讨论第一阶段中的可及集,证明了可及集的可列停时分解的性质。在连续时间的随机MAB模型中,考虑了相互独立的arm均有自身允许的停止范围,且只有在该范围上才能切换,目标是最大化在无限时间上的期望总折扣报酬。首先,引入允许停止随机集的概念,建立过程版的带停止限制的最优停时一般理论;接着,基于EL Karoui and Karatzas (1994)的想法,运用所得的理论解决单arm的报酬过程与Gittins指标过程的关系,最后,运用Kaspi and Mandelbaum (1998)的偏移法(excursion method)证明Gittins指标的最优性,其中的论证过程也比以往的证明简洁。在连续时间的随机MAB模型中,同时了考虑arm的切换要求和变折现的情况。分别采用两种期望总折扣报酬,运用带限制的最优停时理论,导出相应的指数定义,运用偏移法,证明了其一指标为最优策略,而另一却不是。运用贝叶斯方法把带随机中断的调度问题转化为不完全信息的调度问题,选择期望折扣报酬为目标函数,分别在静态策略、动态策略下讨论最优指数策略特点,尤其是动态策略中的一步报酬率的情况,目的是想了解不同的贝叶斯框架对调度策略的影响。在静态策略下,采用一般框架与参数框架所得的结论基本相似;而就动态策略而言,通过分析两个例子的一步报酬率与贝叶斯框架的之间的关系,以此说明不同的贝叶斯结构对调度的影响。
其他文献
本文首先指出了当前翻译研究中存在的不足 ,进而探讨了翻译研究中一些重大问题所涉及的哲学观、语言观和交际观。
城市群是城镇化发展到成熟阶段的城市地域空间组织形式,是城镇化进入高级阶段的标志。随着中国工业化和城镇化的发展,城市发展的区域集群化趋势口益明显,长江三角洲、珠江三
随着人们生活方式和生活环境的改变,脑血管疾病已成为目前危害全人类生命健康的主要原因。因此,寻求能有效降低脑血管疾病发生率和对已发生脑血管疾病起保护性作用的手段显得尤
印度教(Hinduism)是今日印度拥有最多信徒的宗教。因为它继承了婆罗门教所崇拜的神祗和基本教义,所以又被称为“新婆罗门教”。印度教的内容甚为复杂,它不仅吸收了婆罗门教
摘要:在大学生创业教育上,要注重“多元化,立体式”创业教育模式的构建,通过模式对各种资源进行利用,从而促进大学生创新创业能力的提升。本文立足大学生“多元化、立体式”创业教育模式的构建,探讨了模式的内涵、意义和具体构建策略。  关键词:多元化;立体式;大学生;创业教育模式;构建  中图分类号:G459 文献标志码:A 文章编号:1674-9324(2017)29-0024-02  近年来,受大学生就
针对现有数据发布隐私保护保护算法中的“局部最优”划分问题,提出了一种基于KD树最优投影划分的k匿名算法.首先,在全局范围内对每一个属性维度进行遍历,根据投影距离方差值
本文以我国一些典型城市的人口与经济发展水平的关系为研究对象,从消费需求的视角,采用规范研究与实证分析相结合的方法,为城市化的发展提供了新的理论分析框架,借助SPSS、Ev
目的:观察消结安胶囊对气滞血瘀型痛经的疗效。方法:96例患者,采用消结安胶囊治疗1~3个疗程。结果:显效54例,其中1个疗程显效12例,2个疗程显效29例,3个疗程显效13例;有效38例,无
目的探讨分析乳腺癌术后阶段性护理指导功能锻炼对患者上肢功能恢复的作用。方法选取我院收治的乳腺癌手术患者60例作为观察对象,将其随机分为观察组和对照组,各30例。对照组