人机协同视角下牛鞭效应问题的深度强化学习算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ws1984003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
牛鞭效应(Bullwhip Effect,BWE)指的是终端消费者的需求信息随着供应链不断向上游传递,出现的一种变异逐级放大的现象。牛鞭效应使得企业库存积压过多、客户满意度低以及运营效率低,进一步增加企业的运营成本。缓解牛鞭效应有利于企业获得较高的资金周转率、客户满意度和运营效率,进一步降低运营成本。因此,很多学者一直致力于牛鞭效应缓解方法的研究。目前,已有信息共享、采购承诺和数量柔性以及库存控制等方法,但仍无法完全消除牛鞭效应。如今,在处理序列决策上有显著优势的深度强化学习算法,已被用来研究供应链领域的相关问题,但是没有涉及牛鞭效应。虽然Oroojlooyjadid等人提出的改进深度Q网络算法(shaped-reward DQN,SRDQN),降低了“啤酒游戏”的库存成本,但是未涉及牛鞭效应的探讨。因此,为缓解牛鞭效应,本文总结以往研究,设计了牛鞭效应问题的人机协同深度强化学习算法。面向牛鞭效应问题,本文对经典的深度强化学习算法深度Q网络(Deep-Q-Network,DQN)进行人机协同改进,并命名为智慧决策机器人(Intelligent Decision-Making Robot,IDMR)。首先,建立算法模型。本文基于经典的“啤酒游戏”以及订货点法(Order-Up-To,OUT)库存策略建立牛鞭效应模型,提出解决牛鞭效应的人机协同深度强化学习算法模型,并给出相关的评价指标。然后,根据IDMR算法模型进行算法设计。本文将牛鞭效应问题抽象为马尔科夫决策过程(Markov Decision Process,MDP),定义牛鞭效应问题的MDP相关要素,进行算法结构设计,并与SRDQN算法进行算法结构对比。最后,进行实验。本文设计对比实验,对比IDMR算法与SRDQN算法在Oroojlooyjadid等人设置的基准库存策略(Base stock,BS)供应链环境中的表现,分析供应链库存成本的差异,进一步将两种算法应用于牛鞭效应环境,验证IDMR算法的有效性。实验结果表明,相比于SRDQN算法,IDMR算法可以实现更低的供应链库存成本,各节点需求波动和库存成本明显降低,牛鞭效应得到极大缓解,同时,服务水平得到一定的保持。此外,相比于SRDQN算法,IDMR算法神经网络的收敛速度更快,数据利用效率更高。本文对DQN算法进行人机协同改进来解决牛鞭效应问题,实现了OUT库存策略下的牛鞭效应极大缓解,为供应链管理中的牛鞭效应提供了一种全新的视角与途径,赋予了供应链管理智慧决策的价值。同时,本文对人工智能算法进行人机协同改进,也为人工智能技术在供应链管理领域发挥“使能”作用提供了可行手段。
其他文献
本文阐述了ChatGPT等聊天机器人在教育培训中的性能和局限性。为了确保此类人工智能工具的适当使用,必须全面了解相应算法的基本原理和局限性。本文首先梳理了人工智能领域从ELIZA、CSIEC到WATSON等聊天机器人系统的发展路线,然后介绍了ChatGPT的功能原理:人类语言的统计概率模型、人工神经网络、基于大规模文本的深度学习算法、应用人类反馈的强化学习算法等。基于以上技术基础,本文讨论了Cha
期刊
新一轮产业变革和科技革命风起云涌,世界范围内的科技创新呈现新的发展趋势,科学研究日益成为推动产业变革和科技革命的重要源动力。为了更有力地促进科学研究的发展,各国高度重视高端科技人才的培养,科研资助机构纷纷加强战略部署,出台了一系列有针对性的创新人才资助计划。例如我国实施的“百人”、“千人”、“长江”、“杰青”等人才计划,都是为了提升国家在科技领域的竞争优势。但截止目前,这些人才计划是否有效激励了受
学位
数字经济时代的到来让人们的生产生活方式发生了巨大的变化,以电子商务为代表的数字经济新模式新业态已逐渐融入到多数消费者的日常生活中。然而,由于网络购物的不可触摸性和不可体验性,消费者常常会受到产品质量不确定问题的困扰。产品制造企业的关于产品质量信息披露行为则有助于减小信息不对称,帮助消费者更好地了解产品质量,提高其购买意愿。如何合理披露产品质量信息以提高收益成为制造企业重要的运作决策之一。同时,在电
学位
报纸
随着国内人口老龄化趋势日益严重,由其引发的养老难题逐渐被国家、社会和个体重视。老年公寓作为一种新型建筑工程产品为解决养老难题提供了一种有效途径,但目前市场上已建成的老年公寓都存在着诸多问题,例如老年公寓价格与功能失衡、建筑物功能不完备等。导致这些问题的关键在于现有老年公寓产品的开发对用户需求普遍不重视,使得已建成的老年公寓产品无法充分满足用户需求,最终导致养老难题尚未得到大力缓解,并且严重阻碍老年
学位
城市公园是城市内一种重要的公共服务设施,它承载了城市的生态优化、文化教育、体育锻炼、休闲游憩等功能,对城市和居民都具有不可替代的作用。因此,城市公园空间配置的社会绩效,一定程度上决定了城市的和谐程度和居民的生活品质。随着城市化进程的加快,我国城市公园建设数量激增,同时随着社会经济发展,居民对城市公园的休闲游憩需求日益提升。但长期以来,我国城市公园建设以“千人指标”作为指导,对空间和社会差异考虑不足
学位
群体决策历史悠久、应用广泛,作为解决问题的一种重要方式,最终会涉及达成群体共识的问题,即一群人对决策问题进行广泛讨论,不断改变一个或多个人的意见,经过多次谈判和妥协,最终达成共识的过程,该过程既耗费时间,又耗费成本,为了更有效、更经济地达成共识,通常需要一个协调者来领导群体决策的发展,作为协调者,不仅需要关注共识决策中的成本,同时也要考虑到每位成员的效用以及群体的共识水平。在群体决策中,由于群体成
学位
铁路是人们日常出行的主要交通方式之一,在我国重大基础设施领域中占据重要地位。随着我国经济体制改革和国有企业改革战略的实施,铁路行业和相关铁路企业也发生了变化。2013年,铁道部被撤销,成立国家铁路局和中国铁路总公司与交通运输部承担其政企职责。此外,在2016年发布的《关于深化投融资体制改革的意见》进一步促使社会资本不断涌入到铁路行业。跨区域铁路跨越多个行政区域,涉及的利益主体众多,需要多个利益主体
学位
近年来,随着我国城镇化进程的快速推进,城市范围不断扩张,建设用地需求量与日俱增,农村住房随集体土地一并被政府征收用于城市建设的现象愈发普遍。中央政策强调要保障被征收人原有生活水平不降低、长远生计有保障,地方政府结合多种补偿方式全力保障被拆迁农户的合法权益,普遍来说给到被拆迁农户的补偿将高于原资产价值。房屋拆迁作为一个经济冲击,既会导致农村家庭损失原有住房,又将给农村家庭带来家庭财富水平的瞬间提升,
学位
在线评论为消费者的购买决策提供了重要的参考信息,但在线评论的数量激增导致了严重的信息过载问题,增加了消费者寻找有用在线评论的负担。为解决这个问题,众多学者对在线评论有用性的影响因素展开了研究,但大多数研究都以亚马逊、淘宝等网购平台的在线评论为研究对象,缺少对本地生活O2O平台在线评论有用性的影响因素探究。基于此,围绕“在本地生活O2O平台上,什么样的在线评论对消费者来说更有用?”这一核心问题,研究
学位