论文部分内容阅读
双边拍卖作为一种高效的资源分配机制,已经被股票市场、期货市场广泛使用,同时也被用于云计算等领域解决资源分配问题。当前一般存在多个双边拍卖市场相互竞争,市场通过制定高效的机制来提高分配效率吸引交易者进入市场交易。双边拍卖中市场定价策略对交易者的收益有着重要的影响,通过影响交易者的市场选择和报价策略从而影响市场竞争结果,所以市场定价策略在双边拍卖中有着较为重要的地位。又因为市场定价策略和交易策略相互影响,因此本文同样要对交易者的交易策略进行分析。然而现有的工作中缺乏对大量交易者情况的考虑,并且也没有考虑连续报价空间的情况。由于本文中交易者具有连续私有类型,同时其状态和报价空间都很大,传统的方法无法解决该问题,因此本文采用深度强化学习算法结合平均场理论来求解市场和交易者的纳什均衡策略。本文将分别在非竞争环境(即单个市场)和竞争环境(即多个双边拍卖市场互相竞争)下,求解交易者的纳什均衡交易策略和市场的纳什均衡定价策略,具体工作如下:
(1)本文首先给出双边拍卖市场基本设定,接着介绍了交易者在双边拍卖中的策略学习过程,给出了交易者期望收益的计算方法。最后介绍了双边拍卖机制中市场分配效率的计算方法,并且推导了市场长期奖励的计算公式。
(2)在非竞争环境下,分析交易者的纳什均衡交易策略和市场的纳什均衡定价策略。由于涉及到大量具有连续报价空间的交易者,因此引入平均场理论对报价空间进行简化,并使用MeanField-ActorCritic(MF-AC)算法训练得到交易者纳什均衡交易策略,并与FictitiousPlay(FP)算法对比。结果显示交易者会隐藏自己的报价来获得更高的利润,结合平均场理论的MF-AC算法的平均求解速度快于FP算法且能达到相似的纳什均衡交易策略。然后分析静态市场定价与分配效率的关系,发现不同的k值对市场分配效率的影响不大。最后使用DeepDeterministicPolicyGradient(DDPG)算法训练得到了市场动态定价策略,并与FP算法比较。实验发现市场定价策略将最终收敛到k=0.5,对比实验表明两个算法能达到相同的均衡定价策略,且DDPG算法求解速度要快于FP算法。
(3)在竞争环境下,分析交易者的纳什均衡交易策略和竞争市场纳什均衡定价策略。由于竞争环境下交易者具有混合动作空间,因此首先使用Independent-ParametrizedDeepQ-Networks(I-PDQN)算法结合平均场理论训练得到纳什均衡交易策略,并与FP算法对比。实验结果表明,不同类型的交易者会根据定价策略选择进入不同的市场,并通过隐藏真实报价来最大化收益。对比实验发现,两种算法均能得到近似相同的纳什均衡策略且I-PDQN算法求解速度明显快于FP算法。接着分析市场静态定价,发现若两个市场的定价参数均偏向于买家或者卖家,此时只有一个市场能存活。最后分析动态竞争市场的纳什均衡定价策略,采用Multi-AgentDeepDeterministicPolicyGradient(MADDPG)算法训练得到纳什均衡定价策略。结果发现不同市场的定价策略最终会稳定到k?0或者k?1,具体的结果跟市场的初始参数有关。通过对比实验得知使用FP算法也能够得到相同的纳什均衡定价策略,但求解速度慢于MADDPG算法。
综上所述,本文对具有连续私有类型的大量交易者的纳什均衡交易策略和市场定价策略进行研究,使用深度强化学习算法并结合平均场理论进行求解分析并与FP算法对比。实验结果发现在不同的环境中交易者会选择不同的市场并且隐藏报价,市场则会选择不同的定价策略。对比实验表明两种算法能得到近似的纳什均衡解,但是本文的方法求解更快。
(1)本文首先给出双边拍卖市场基本设定,接着介绍了交易者在双边拍卖中的策略学习过程,给出了交易者期望收益的计算方法。最后介绍了双边拍卖机制中市场分配效率的计算方法,并且推导了市场长期奖励的计算公式。
(2)在非竞争环境下,分析交易者的纳什均衡交易策略和市场的纳什均衡定价策略。由于涉及到大量具有连续报价空间的交易者,因此引入平均场理论对报价空间进行简化,并使用MeanField-ActorCritic(MF-AC)算法训练得到交易者纳什均衡交易策略,并与FictitiousPlay(FP)算法对比。结果显示交易者会隐藏自己的报价来获得更高的利润,结合平均场理论的MF-AC算法的平均求解速度快于FP算法且能达到相似的纳什均衡交易策略。然后分析静态市场定价与分配效率的关系,发现不同的k值对市场分配效率的影响不大。最后使用DeepDeterministicPolicyGradient(DDPG)算法训练得到了市场动态定价策略,并与FP算法比较。实验发现市场定价策略将最终收敛到k=0.5,对比实验表明两个算法能达到相同的均衡定价策略,且DDPG算法求解速度要快于FP算法。
(3)在竞争环境下,分析交易者的纳什均衡交易策略和竞争市场纳什均衡定价策略。由于竞争环境下交易者具有混合动作空间,因此首先使用Independent-ParametrizedDeepQ-Networks(I-PDQN)算法结合平均场理论训练得到纳什均衡交易策略,并与FP算法对比。实验结果表明,不同类型的交易者会根据定价策略选择进入不同的市场,并通过隐藏真实报价来最大化收益。对比实验发现,两种算法均能得到近似相同的纳什均衡策略且I-PDQN算法求解速度明显快于FP算法。接着分析市场静态定价,发现若两个市场的定价参数均偏向于买家或者卖家,此时只有一个市场能存活。最后分析动态竞争市场的纳什均衡定价策略,采用Multi-AgentDeepDeterministicPolicyGradient(MADDPG)算法训练得到纳什均衡定价策略。结果发现不同市场的定价策略最终会稳定到k?0或者k?1,具体的结果跟市场的初始参数有关。通过对比实验得知使用FP算法也能够得到相同的纳什均衡定价策略,但求解速度慢于MADDPG算法。
综上所述,本文对具有连续私有类型的大量交易者的纳什均衡交易策略和市场定价策略进行研究,使用深度强化学习算法并结合平均场理论进行求解分析并与FP算法对比。实验结果发现在不同的环境中交易者会选择不同的市场并且隐藏报价,市场则会选择不同的定价策略。对比实验表明两种算法能得到近似的纳什均衡解,但是本文的方法求解更快。