基于不平衡离线数据的在线赌博机算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zhp2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
赌博机算法是典型的用于解决探索与利用权衡问题的方法。在许多在线决策类应用中,如在线内容推荐、网络资源分配等,都存在着权衡探索与利用的挑战,赌博机算法也因此受到了广泛的研究与应用。目前,许多公司都存档了大量的用户交互记录和信息,研究如何利用这些离线信息来帮助在线赌博机算法的设计也至关重要。这些离线信息通常与不同用户和不同动作关联,已有的赌博机算法都忽略了不同的离线数据分布对赌博机算法学习速率的影响,故以此为切入口,设计了两种能够合理利用不平衡离线数据的在线赌博机算法。(1)基于不平衡离线数据的赌博机算法。首先,分析了不同类型的离线数据对在线赌博机算法性能的影响,发现使用与最佳动作关联的离线数据会阻碍赌博机算法的在线学习。为了消除离线数据对在线赌博机算法的不利影响,提出了优化离线数据选择策略。然后,设计了一个估计该策略的适应性算法,提出了基于自适应离线数据选择策略的虚拟上置信界算法(Rob Vir UCB),它可以适应性地选择“有用”的离线数据来加速赌博机算法的学习。最后,在合成数据集和真实的Movie Lens评分数据集上评估算法,得出了以下结论:1)Rob Vir UCB算法具有很好的收敛性,其累计遗憾随着决策时间呈次线性增长趋势;2)Rob Vir UCB算法具有很好的估计准确性,在不同的离线数据设置下,算法的遗憾期望总是无限接近基于优化离线数据选择策略的赌博机算法;3)Rob Vir UCB算法在利用不平衡离线数据方面具有更好的表现和更强的鲁棒性,在不同的离线数据分布设置下,总是比其他已有的赌博机算法具有更小的遗憾期望(或更大的奖励期望)。(2)基于不平衡离线数据的上下文赌博机算法。为了进一步提高赌博机算法的学习速率、扩展赌博机算法的应用范围,提出了能够合理利用不平衡离线数据的上下文赌博机算法(Rob-LRLin UCB)。它通过利用离线数据和在线反馈数据的上下文信息,进一步加快赌博机算法的学习速率。在合成数据集和真实的Yahoo!R6A内容推荐数据集上评估算法,得出以下结论:1)Rob-LRLin UCB算法比已有的上下文赌博机算法在利用不平衡离线数据方面具有更好的性能和更强的鲁棒性;2)在奖励期望与上下文向量满足线性映射的假设下,Rob-LRLin UCB算法的性能远远高于上下文无关的赌博机算法;3)在真实的内容推荐数据集上,Rob-LRLin UCB算法也比其他赌博机算法具有更高的相对点击率,进一步验证了算法的优越性能。
其他文献
党的二十大报告中指出,共同富裕是中国式现代化最主要的特点之一。我们要把重点放在促进城乡一体化、地区统筹发展上,使经济在质上得到切实提高,在量上得到合理增长。城乡一体化发展是把城乡看作一个有机整体,其核心是缩小城乡之间的收入差距,推动生产要素在城乡之间双向流动,合理配置公共资源。如何实现这一目标?农业保险发挥着重要的作用。银保监会在2022年发布了《农业保险承保理赔管理办法》,对保险服务现代农业提出
学位
数字经济时代,数字化连接打破了传统的企业边界,随着用户价值成为生态运行的核心,规模经济、技术优势等壁垒的作用被削弱,跨界合作成为企业组织发展的常态。作为一种以分布式底层架构为主要特征的新型计算和协作方式,区块链凭借独特的信任建立机制,正在改变各行各业的运行规则和应用场景。随着区块链与商业的融合不断加深,衍生出了以连接并激活分布式生产力单元为特征的分布式商业模式。目前业界对这一商业模式创新路径已有不
学位
腐败问题是世界各国共同面对的棘手难题,对政府腐败的研究及其预防和遏制是现代公共管理的核心。腐败治理在全球治理体系中居于特殊地位,尤其是对发展中国家而言,受制于文化传统、制度体制、发展阶段和国民特质等因素的影响,腐败治理充满挑战。中国作为世界上最大的发展中国家,由于政治经济体制的特殊性,在反腐败斗争上受到了更多的关注,也充斥着更大的挑战。展示坚定不移的反腐承诺、开展密集的腐败调查对保持政权支持具有十
学位
传统上认为,对于开放系统,处于连续谱中的共振态在空间上是扩展的,同时由于与外界存在能量交换,其Q因子也是有限的。而连续谱中束缚态(bound state in the continuum,BIC)是开放系统中一类特殊的束缚态,它的频率处于连续谱中,场分布却又是空间局域的,同时具有无限大的Q因子。因此自从von Neumann和Wigner在1929年提出了BIC这一概念后,人们尝试各种方法来实现B
学位
针对常规工艺处理高有机污染物、高氮磷的畜禽养殖废水除碳脱氮困难、能耗高的问题,将反硝化和厌氧氨氧化(Anammox)技术结合,厌氧氨氧化耦合反硝化(Simultaneous Anammox and Denitrification,SAD)工艺应运而生,具有脱氮除碳高效、低耗、占地面积小等优点,其在养殖废水处理中的应用已成为一个技术研发热点。SAD工艺稳定运行过程中还需要进行相关影响因素的优化调控,
学位
为探明旱地苹果不同耕作方式下适宜的施氮量,研究不同氮素水平对果实品质的影响。选择黄土高原地区长期覆沙苹果园,采用裂区试验设计方法,主区为覆沙(SM)与清耕(CT)2个处理,副区为5个氮素水平,每株施氮量分别为0(N1)、109 g(N2)、218 g(N3)、327 g(N4)和436 g(N5),配施等量的磷(P2O5,145 g)、钾(K2O,87 g)和商用有机肥6.5 kg。结果表明:(1
期刊
跨学科主题学习是基于某个学科内容,联合其他学科课程内容、方法、思想而开展的综合性探究活动,旨在发挥课程协同育人的价值,培养学生问题解决能力。跨学科主题学习有助于转变学生的学习方式、构建教师教研共同体、变革课程育人方式。为更好地实施跨学科主题学习,教师应围绕跨学科大概念,设计跨学科主题学习目标;基于学习表现,全面评价学生跨学科主题学习;创设真实问题情境,引导学生实践跨学科主题学习。
期刊
本文主要研究职业教育下贵州省茶产业发展现状与茶产业发展人才需求及茶叶专业人才培养模式探索。一是贵州省涉茶院校茶叶专业人才培养已滞后于贵州省茶产业发展人才需求,二是为培养出能懂技术、会管理、善经营的综合性技术技能人才,必须从师资建设、实训条件、课程设置等方面的进行改革才能培养出满足企业要求的综合性人才。
期刊
近年来,分布式电源的增加、电力电子技术的进步以及直流负荷的大规模应用,使得直流配电网逐渐成为研究热点,而电弧故障问题则是限制直流配电网发展的原因之一。直流电弧发生条件低,因直流没有过零点,电弧一旦发生便难以自行熄灭,严重威胁了直流系统的安全。当母线上发生串联电弧时,相当于在系统中串入一个小电阻,不会引起较大的电信号波动,检测与测距难度较高。为此,本文利用电弧故障所产生故障行波的传输特性,提出一种三
学位
本研究首先在分析了专利开放许可规则的具体内容和基本内涵的基础上,指出仅靠现有规则其实不能充分实现其立法目的。专利开放许可规则设置的直接目的是为了使专利实施许可的方式和类型变得更加多样,提升专利许可的数量,从而提高专利的实施率。虽然专利开放许可这一规则的引入能够让专利许可的交易过程变得更加方便和简化,但在实际执行中仍然存在专利市场信息不对称、专利交易渠道不畅通等适用困境。除此之外,专利开放许可规则本
学位