博弈机器学习及其在搜索广告中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今互联网时代,像搜索广告、众包、应用商店等互联网应用为公司创造了新的盈利渠道,也正在改变着我们的日常生活。在这些互联网应用的背后,机制(如,拍卖机制)起了至关重要的作用。近年来,最优机制设计问题已经成为博弈论和机器学习领域的研究热点课题。本文主要以搜索广告为例展开讨论。  搜索广告系统是一个包含搜索引擎用户、广告主以及搜索引擎的多方互动的动态博弈系统。一方面,由于搜索广告系统规模大、节奏变化快,系统信息也不是完全的、透明的,因此广告主的出价行为不再是完全理性的;另一方面,由于人的本性,为了获取更多的收益,广告主的行为具有策略性,因此不再是独立同分布的,并且依赖于机制。从而在搜索广告系统中,广告主的出价行为违背了博弈论和传统机器学习中的常用假设,为最优机制设计问题带来了新的挑战。为了解决这一挑战,博弈机器学习框架被提出。这实际上是离线学习的方法,我们称其为离线博弈机器学习。它包含了两层的优化学习:首先,学习广告主的行为模型,以刻画广告主的出价变化;然后,基于学习出的广告主行为模型,模拟广告主在其他机制下的出价行为来学习最优机制。虽然实验结果表明了该方法的有效性,但是却缺乏严谨的数学描述和理论保证。此外,实际中我们往往在学习之前不能得到所有的训练样本数据,样本数据是在学习的过程中实时产生,此时需要设计在线学习的方法来优化机制。  针对以上问题,本文做了如下三项工作:  首先,对博弈机器学习的行为模型进行理论分析。利用随机环境中马氏链的性质,从理论上证明了在一定条件下该行为模型具有收敛性并进行了泛化能力分析。  其次,对离线博弈机器学习进行泛化能力分析。根据离线博弈机器学习的两层经验风险最小化特点,提出度最函数空间复杂程度的新测度(即,嵌套覆盖数),并且对离线博弈机器学习的泛化误差进行分解,分解为行为学习误差和机制学习误差两部分。然后分别对行为学习误差和机制学习误差进行讨论分析,最终得到了离线博弈机器学习泛化误差上界。  最后,对在线博弈机器学习进行探索研究。首先,设计在线博弈机器学习框架,把用该框架学习最优机制的问题转化成马氏MAB问题。其次,以最小化期望损失(Regret)为目标,设计算法,并得到该算法下的期望损失的上界。然后,设计算法考察历史数据对regret减小的程度,并给出期望损失的上界。最后,从最优机制辨认的角度设计算法,并证明用该算法得到的经验最优匹配关键词是渐近最优的。  这三项工作,不仅从理论上对博弈机器学习的研究进行了完善,也为实际应用中的一些重要问题提供了答案,比如:如何设计数据规模,如何改进算法等。  
其他文献
密码学是网络安全的重要方面,许多密码机制都是基于大整数的运算,该文把大整数的运算作为题目,主要讨论了三个方面的问题,大整数的存储及运算、伪随机数据流的生成,以及素数
该文针对常微分方程,二阶时滞微分方程和分段滞量微分方程,分别提出了适当的脉冲镇定的概念.并且以李雅普诺夫函数法为主要技巧,得到了相应模型脉冲镇定的判据,给出了大部分
众所周知,多媒体技术以其独特的魅力,在课堂教学中大显身手,有效地吸引了学生的注意力,激发了学生的学习兴趣,同时也可以增加课堂的教学容量,大大提高了课堂的教学效率,提高
这篇博士论文主要是把李群算法应用到偏微分方程,如铁磁链方程和不可压缩流体二维涡度方程,它能保持微分方程的平方守恒特性,又有经典算法相同的精度.其目的在于使我们对李群
该文研究环的可比性,K群及其状态空间,我们分五章进行讨论.第一章简要介绍研究背景和该文的主要结果.第二章研究可比性和稳定度.第三章定义并研究了广义cu-环和模的相对幂比
运动系统稳定性的研究是自然科学与工程技术中,人们普遍关心的问题.因为一个实际运动或工作的系统,总不可避免有各种干扰,干扰的后果如何,是不能不考虑的.微小的干扰因素对于
四中 全 会《关于 加强 党 的执 政能 力建 设 的决 定》出台 后 ,各省 市 都召 开 党委扩 大会议进行 学习贯彻。其 中,广东、辽宁 、上海等地已 在最快时间 内形成正式的文
山东省莱州市焦家金矿深部再现特大型金矿项目主要完成单位:山东省第六地质矿产勘查院河北省滦南县马城发现特大型铁矿项目主要完成单位:中国冶金地质总局南海珠江口盆地深水
本文由两个部分构成,在第一部分中,作者研究了二维光滑代数射影半群的分类问题;在第二部分中,作者对Mukai flop证明了一个相交数的普朗克型公式,另外,作者还研究了能够被一次膨胀
该文给出了两种数据融合的方式,一种是基于贝叶斯理论框架的组合识别,另一种是以加权方式进行数据融合.数据融合理论早在20年前就被证明为一种提高系统性能的有效途径.由于不