基于强化学习的电子销售市场动态定价研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zhoudeyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅猛发展,电子商务得到了广泛应用,电子销售市场中的动态定价问题研究具有十分重要的现实意义。论文主要使用强化学习技术来分别解决单个销售商和多个销售商垄断电子销售市场的动态定价问题。论文首先根据单个销售商垄断电子销售市场的模型特点,将其建模成半马尔可夫决策过程(Semi-Markov Decision Process,SMDP),并结合性能势理论,建立了适用于平均和折扣两种性能准则的Q学习算法和模拟退火Q学习算法,以解决单个销售商的动态定价问题。与简单的动态定价方法DF(Derivative Following)相比,这两种算法的学习效果更好,其中模拟退火Q学习算法能够有效解决Q学习中的探索和利用之间的平衡问题。论文还讨论了不同的系统参数对销售商收益的影响。论文还针对两个销售商垄断电子销售市场的模型,研究了彼此之间没有信息交互和只有部分信息交互两种情况下的动态定价问题。第一种情况下,每个销售商单独学习,决策时刻各自独立,因而是异步决策问题;第二种情况下,销售商之间只能观察到对方的状态信息,而不知道对方的行动和报酬,因而可建模成马尔可夫博弈。针对这两种情况,论文在性能势理论框架下分别引入了WoLF-PHC算法,该算法根据对手使用的行动不同,而采用不同的学习率,从而能够更好地适应环境的变化。实验结果表明,WoLF-PHC算法和模拟退火Q学习算法都能有效解决无信息交互和只有部分信息交互时的动态定价问题,而且与模拟退火Q学习算法相比,WoLF-PHC算法学习效果更好。
其他文献
【目的】提高水氮利用效率、玉米产量和经济效益。【方法】设置3个灌水定额水平(W0:0mm、W1:40mm、W2:80mm),4个施氮量水平(N0:0kg/hm^2、N1:180kg/hm^2、N2:230kg/hm^2、N3:
建筑防水在建筑设计和施工中占有十分重要的地位。文章通过对材料、设计、施工、管理四个因素对建筑屋面防水渗漏的原因进行分析,并在此基础上提出相应的防治措施,进而明确建
随着电子商务的日益繁荣,电子商务的安全问题已经得到国内外的普遍重视。电子商务安全是系统的概念,是技术与管理的综合。因此可靠的信任管理系统不仅要实施各种安全策略而且
随着海关进一步对走私犯罪打击力度的加强,走私行为已经从原有“粗放式”违法犯罪向“智能型”的违法或犯罪行为转变。这种智能型的违法或犯罪行为,主要是指进口报关时的“伪
邯郸阳光百货集团是邯郸市零售商业龙头企业。改革开放以来,企业获得快速发展,在服装、百货、家电、超市等领域均取得了优势地位,跻身中国服务业500强企业,中国连锁百强企业
价格决策听证制度是公共决策民主化新机制的重要体现形式之一。它在我国的兴起是基于公民参与行政决策程度的提高和我国民主法制历程不断发展的基础上的。这一制度的广泛应用
近年来随着我国经济发展,机动车数量急剧增加,危险驾驶者也成为人们深恶痛绝的马路杀手且屡禁不绝。2011年5月1日起施行的《中华人民共和国刑法修正案(八)》(以下称《修正案(
教育立法存在两种不同的思维和方式,即权力的思维和方式、权利的思维和方式。国家治理现代化意味着,立法工作中的权力思维和方式要向权利思维和方式转变。按照后一种思维和方
随着中国出口贸易的迅速发展,学界对中国出口的技术结构是否出现升级予以了更多关注,但是并未得出一致性的结论。本文利用显示技术附加值(RTV)指数,分析得出中国出口贸易技术