基于深度强化学习的双边拍卖交易和定价策略研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:sxsj002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双边拍卖作为一种高效的资源分配机制,已经被股票市场、期货市场广泛使用,同时也被用于云计算等领域解决资源分配问题。当前一般存在多个双边拍卖市场相互竞争,市场通过制定高效的机制来提高分配效率吸引交易者进入市场交易。双边拍卖中市场定价策略对交易者的收益有着重要的影响,通过影响交易者的市场选择和报价策略从而影响市场竞争结果,所以市场定价策略在双边拍卖中有着较为重要的地位。又因为市场定价策略和交易策略相互影响,因此本文同样要对交易者的交易策略进行分析。然而现有的工作中缺乏对大量交易者情况的考虑,并且也没有考虑连续报价空间的情况。由于本文中交易者具有连续私有类型,同时其状态和报价空间都很大,传统的方法无法解决该问题,因此本文采用深度强化学习算法结合平均场理论来求解市场和交易者的纳什均衡策略。本文将分别在非竞争环境(即单个市场)和竞争环境(即多个双边拍卖市场互相竞争)下,求解交易者的纳什均衡交易策略和市场的纳什均衡定价策略,具体工作如下:
  (1)本文首先给出双边拍卖市场基本设定,接着介绍了交易者在双边拍卖中的策略学习过程,给出了交易者期望收益的计算方法。最后介绍了双边拍卖机制中市场分配效率的计算方法,并且推导了市场长期奖励的计算公式。
  (2)在非竞争环境下,分析交易者的纳什均衡交易策略和市场的纳什均衡定价策略。由于涉及到大量具有连续报价空间的交易者,因此引入平均场理论对报价空间进行简化,并使用MeanField-ActorCritic(MF-AC)算法训练得到交易者纳什均衡交易策略,并与FictitiousPlay(FP)算法对比。结果显示交易者会隐藏自己的报价来获得更高的利润,结合平均场理论的MF-AC算法的平均求解速度快于FP算法且能达到相似的纳什均衡交易策略。然后分析静态市场定价与分配效率的关系,发现不同的k值对市场分配效率的影响不大。最后使用DeepDeterministicPolicyGradient(DDPG)算法训练得到了市场动态定价策略,并与FP算法比较。实验发现市场定价策略将最终收敛到k=0.5,对比实验表明两个算法能达到相同的均衡定价策略,且DDPG算法求解速度要快于FP算法。
  (3)在竞争环境下,分析交易者的纳什均衡交易策略和竞争市场纳什均衡定价策略。由于竞争环境下交易者具有混合动作空间,因此首先使用Independent-ParametrizedDeepQ-Networks(I-PDQN)算法结合平均场理论训练得到纳什均衡交易策略,并与FP算法对比。实验结果表明,不同类型的交易者会根据定价策略选择进入不同的市场,并通过隐藏真实报价来最大化收益。对比实验发现,两种算法均能得到近似相同的纳什均衡策略且I-PDQN算法求解速度明显快于FP算法。接着分析市场静态定价,发现若两个市场的定价参数均偏向于买家或者卖家,此时只有一个市场能存活。最后分析动态竞争市场的纳什均衡定价策略,采用Multi-AgentDeepDeterministicPolicyGradient(MADDPG)算法训练得到纳什均衡定价策略。结果发现不同市场的定价策略最终会稳定到k?0或者k?1,具体的结果跟市场的初始参数有关。通过对比实验得知使用FP算法也能够得到相同的纳什均衡定价策略,但求解速度慢于MADDPG算法。
  综上所述,本文对具有连续私有类型的大量交易者的纳什均衡交易策略和市场定价策略进行研究,使用深度强化学习算法并结合平均场理论进行求解分析并与FP算法对比。实验结果发现在不同的环境中交易者会选择不同的市场并且隐藏报价,市场则会选择不同的定价策略。对比实验表明两种算法能得到近似的纳什均衡解,但是本文的方法求解更快。
其他文献
随着港口运输越来越发达,为适应港口集装箱业务的发展需求,集装箱作业自动化的程度也越来越高,正确高效地识别集装箱箱号是自动化作业的基础。随着人工智能在港口领域得到广泛应用,机器学习作为人工智能的关键核心技术,受到了前所未有的重视和快速发展。基于机器学习方式识别集装箱箱号,需要足够的集装箱箱号数据集,目前在港口领域,还没有成熟的集装箱箱号数据集。因此研究集装箱箱号图像样本扩充方法对于基于机器学习的集装
随着智能设备的普及,GPS和Web2.0技术的发展,能够基于位置提供服务的应用程序应运而生。基于位置的社交网络(Location-based Social Network,LBSN)也变得流行起来,用户可以轻松地访问LBSN应用程序,并在自己感兴趣的兴趣点(Point of Interest,POI)留下足迹,比如用户感兴趣的餐厅、酒店、剧院等。然而,随着城市的发展,人们生活的物理边界不断被拓宽,
随着信息技术的飞速发展,网络上的信息量激增。在求职领域中,传统的线下招聘也逐步被网络招聘所取代,出现了诸如58同城、智联招聘的大量求职网站系统,用户可以在网站上投递简历、进行面试,但是大量的职位信息可能让用户难以抉择。为了从海量的求职信息中发现用户的兴趣,满足用户个性化的信息需求,对求职推荐的准确性要求更加严格。传统求职推荐系统多采用协同过滤算法,协同过滤算法存在冷启动和数据稀疏问题,解决这些问题
学位
分布式视频编码(Distributed Video Coding,简称DVC)有别于传统的视频编码方式,它将具有复杂运算的模块(如运动估计、运动补偿等)从编码端转移到解码端。因此,它可以应用于编码端的计算能力、存储空间和功耗资源都受限的场景。目前,大多数的DVC采用信道编码实现信源的编解码,如低密度奇偶校验码(Low-Density Parity-Check,简称LDPC)。然而,LDPC在视频中
在监控、目标识别等实际应用中,具有高分辨率的图像能够提供更多的有效信息。但在成像过程中会受到模糊、几何变形、降采样及各阶段噪声等因素的干扰,导致图像产生一定程度的退化从而降低图像的分辨率,严重影响计算机视觉系统中图像处理的最终结果。为了得到高分辨率的图像,本课题围绕基于生成对抗网络GAN的退化图像超分辨率重建方法展开研究和改进,主要工作内容如下:(1)在Bicubic降采样这类退化产生的低分辨率图
日益增多的机动车数量与驾驶人数使得道路驾驶环境变得愈加复杂,在一定程度上增加了交通事故发生的概率。大量分析研究表明,驾驶员人为因素是导致道路交通事故发生的重要原因,其主要包括疲劳驾驶和分心驾驶两类危险驾驶行为,因此针对这两类危险驾驶行为进行有效监测与实时预警变得愈发重要。当前针对驾驶员分心与疲劳驾驶行为监测方法存在以下问题,一是未能同时兼顾驾驶行为监测的准确度与实时性需求;二是未对分心、疲劳危险驾
学位
飞行员作为民航安全的“最后一道防线”,其不安全操纵行为直接影响飞行安全。快速存储记录器(QAR)作为飞机上一种无保护装置的飞行数据记录设备,能反映航行期内飞行员的操作行为。目前基于QAR超限事件的飞行安全管理方法,通过设定监控参数分析飞行员不安全操纵行为,常常难以发现触发超限事件的潜在人为因素,因此,通过对QAR数据进行关联分析,对于更全面挖掘飞行员不安全操纵行为,提高飞行安全水平,具有重要的理论
伴随芯片、传感器及网络通信等技术的迅速发展,智能设备的数量呈现爆发式增长,这些设备产生的大量数据也呈井喷式的增长。而大数据处理技术的不断成熟也使得这些大数据的潜在价值不断上升,将这些具有潜在价值的数据进行开放共享是一个必然的趋势。但数据共享往往会带来安全方面的隐患,因此,建立一个使共享双方信任的数据共享平台是十分重要的。为了降低用户访问内容时的延迟,内容分发过程往往在不同地域的节点或服务器之间进行
学位
随着智能手机或平板电脑等智能移动终端的普及和物联网(Io T)技术的迅速发展,传统云计算技术已经无法满足终端侧“低时延,大带宽”的云资源要求,欧洲电信标准协会(ETSI)提出多接入边缘计算(MEC),在移动网络边缘提供IT服务环境和计算能力,以减少网络操作和服务交付的时延。在多接入边缘计算环境中引入软件定义网络(SDN)技术,可以支持大量网络设备的访问,且方便网络设备的扩展,使得边缘网络的管理更灵
交通领域中的智能驾驶越发重要,对于减少交通事故,防止人员生命财产的损失具有重要意义。但是,传统的车辆智能行车系统存在着效率过慢,并且精度较低的问题。随着深度学习的落地,前方防碰撞预警系统(FCWS)可以在前方车辆距离过近时,及时发出警报,从而避免发生事故。前方防碰撞预警系统主要目的是实时检测前方车辆的距离,由两个重要的技术支撑:车辆检测与深度估计。车辆检测用于识别监测前方车辆,而深度估计负责计算与
学位