论文部分内容阅读
库存管理是现代企业运营中非常重要的一部分,其与企业的利益息息相关,一个有效的库存控制策略不仅可以降低企业的库存成本,还可以减少企业因缺货而造成的销售和商誉损失。反之,一个低效的库存控制策略会增加企业的相关成本和损失,进而影响企业的生存与发展。库存管理的目标旨在帮助企业在不同条件的约束下进行合理的库存决策,支持企业的生产与运作。因此,如何将库存保持在合理的水平同时构建一套有效的库存管理系统,是一个现代企业构建核心竞争力和实现长久发展的关键。随着经济社会的发展,企业面对的环境愈发复杂,这极大地增加了企业的运营难度并且使得企业既有策略效果受到了极大的挑战。与之相对的,近年来随着信息科技的全面渗透以及数据挖掘技术的进步,企业开始步入大数据时代,这也使得企业收集信息的能力大大提升,数据已经成为企业的宝贵资产。在此背景下,企业如何利用数据来应对日益加剧的竞争以及把控需求的不确定性成为了企业可持续发展的重中之重。因此,基于数据驱动的库存管理研究符合现实情况并且具有十分重要的现实意义。在库存管理问题中,决策者需要在需求未知时决定商品的库存水平并以此来满足未来需求。传统的库存研究中,研究者假设需求分布完全已知,以此来做出库存决策。但随着商业环境的剧烈变化,需求的不确定性大大增加,因此基于随机需求的库存控制应运而生。近些年来,数据驱动的库存管理问题成为了一个重点研究方向,该类研究根据历史需求以及其它可获取的数据进行库存管理的建模与决策。本文紧跟这类研究范式,在需求非参数设定下研究了常规品与易腐品的库存管理问题。对于常规品,本文研究了一个数据驱动的二维决策多阶段报童问题。相较于单决策变量的多时段报童模型,本文引入了提前订货决策变量。本文将一维的弱集成算法推广到了二维情形,解决了此二维库存决策问题。区别于常规品,易腐品的库存控制需要在库存决策中考虑保质期对决策的影响,商品只有在固定的或随机的一个较短期限内能被用于满足需求,超过这个期限将被废弃,比如血液制品等。本文研究的多期定价与库存联合决策易腐品问题,是传统的动态规划方法难于解决的。本研究还考虑了正交货期以及固定订货成本等库存决策影响因素,进而问题的复杂度还会大大增加,难以用传统方法求解。针对问题的复杂性,本文使用深度强化学习算法来解决易腐品库存与定价的联合决策问题,利用神经网络的拟合特点有效的避免了维数问题。具体来讲,本文的主要研究内容有以下两个部分:第一:数据驱动的二维多阶段报童问题研究。本研究将基于常规品的一维多时段报童问题拓展为二维多阶段报童问题,即整个研究期包含多个阶段,每个阶段包含多个时段。在每个阶段的开始决策者需要为本阶段内的每个时段决定一个相同的提前订货规模并以此获取提前订货折扣,除了提前订货,每个时段决策者还可以进行常规订货。本研究中没有对需求进行任何的假设,决策者能观察的数据仅有实现了的历史需求。本文将基于专家意见的一维在线弱集成算法拓展到二维情形来解决这个二维决策问题。该问题的一个难点在于常规订货决策经验的跨阶段传递。针对这一难点,本文设计了一个跨阶段的经验继承规则来调整常规订货决策,最终得到了提前订货和常规订货的在线订货解决方案。通过理论推导,本文得到了提前订货规模以及常规订货量的显示解,并且利用收益函数具有的单调性及其性质,从理论上证明了研究中提出的策略得到的研究期总收益以及阶段内总收益针对于最优策略表现的收敛性。数值实验以及灵敏性分析结果验证了本文提出的算法的有效性。第二:基于深度强化学习的易腐品定价与库存联合决策。本文考虑了当商品为有限保质时间的易腐品库存管理问题。易腐品的定价与库存管理,是传统的动态规划方法难于解决的问题。其原因是易腐品的库存状态需要用向量来表示不同剩余保质期的商品。此外,本研究还考虑了正交货期以及固定订货成本等现实库存决策影响因素,因此问题的复杂度还会大大增加,难以用传统方法求解。针对问题的复杂性,本文构建了深度强化学习算法求解此复杂易腐品联合定价的库存控制问题,其中主要运用神经网络的拟合性克服维数问题并实现对状态-动作价值的刻画。同时此方法下,决策者能够获得的需求信息来源于环境的收益反馈。为了验证深度强化学习算法的有效性,本文通过未卜先知的需求数据设计了一个理论利润最优上界,同时将提出算法与其它方法进行了比较。数值实验验证了本文提出算法的性能有效性,尤其在考虑本文提出的所有库存决策影响因素时,深度强化学习算法显著的好于传统方法。对比实验也显示深度强化学习算法很好的避免了传统方法会造成的无法计算的维数灾难问题。实验还展示了动态定价对于易腐品库存控制的重要性。最后,本文讨论了不同条件下学习到的订货定价策略所具有的不同性质,进一步丰富了复杂条件下最优策略性质讨论的研究。从理论层面,对于常规品,本研究丰富了多时段报童问题的研究,考虑了提前订货折扣,将一维决策变量的多时段报童问题拓展为二维决策变量的多阶段报童问题。并针对此二维问题设定提出了多阶段弱集成算法,拓展了解决一维决策问题的弱集成算法。通过推导以及利用收益函数所具有的单调性及性质,给出了相应订货策略的显示解以及研究期累计收益和阶段内总收益的理论性能保障,丰富了研究的理论结果。在研究复杂易腐商品库存管理问题时,本文考虑了许多现实存在的库存决策影响因素,丰富了易腐商品的库存管理研究,并且针对传统动态规划方法在应对此复杂问题时容易陷入维数问题无法求解,本文利用深度强化学习算法很好的解决了提出问题并获得了不错效果,验证了深度强化学习算法在易腐品联合定价的库存控制问题中的运用前景。从应用层面,本文所考虑的库存决策影响因素以及问题设定在现实生活中已有相应的场景,并且实验也验证了本文所提方法的有效性,因此这些方法具有潜在的现实运用价值,可以用以指导解决实际问题。