多臂老虎机模型在基于马尔科夫链建模的动态选品优化中的应用

来源 :上海财经大学 | 被引量 : 1次 | 上传用户:jswlgx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产品组合与选品优化问题(Assortment Optimization)是零售业、航空业、在线广告业等许多行业中出现的一个重要问题,在这个收益管理的问题之中,决策者往往需要从一系列可替代的产品中选择一个最优的产品子集来提供最大的预期收益;而当决策者给定其产品集的提供后,顾客消费者将通过一定模型下的选择行为来进行对应的选择,或直接离开系统不做出任何采购行为。对于选择模型的研究,是十分有必要的,对消费者的选择行为进行分析和研究都能带来巨大的应用价值;本文所考虑的离散选择模型,学术界已考虑过非常多的建模方式,例如随机效用模型、多项选择模型、代理人模型、半参数模型等;而本文将重点考虑基于马尔科夫链建模的离散选择模型,以此来刻画选品优化问题中的顾客选择行为。而在选品优化的问题之中,静态的优化问题是最为常见的,往往是当问题的参数能作为先验信息时对问题进行求解;在这种情形下,学术界已针对相关静态选品优化问题做出了大量的讨论,并提出了相对应的高效求解算法。近几年随着在线学习、强化学习、机器学习与深度学习等领域的发展,动态选品优化的问题也逐渐趋于热门。在动态选品优化的问题中,顾客的行为信息对于决策者而言是未知的,而决策者需要考虑在一定时间周期之内最大化其选品集提供决策所能取得的期望收益。而在这个问题中,期望收益的计算往往是不可获得的,学术界往往会将最小化后悔度——即与最优选品集下的期望收益的差距作为动态优化问题的目标,来完成一定期限内最小化后悔度的问题建模。同时,在动态选品优化问题中,我们往往需要完成两方面的目标——尽可能多的进行探索以获得更多的信息以供长远收益的更大;尽可能的在当前信息之下获得更多的收益目标。多臂老虎机模式,就是基于这样子的框架所提出的在线学习模式,例如有上置信度界限框架、汤普森采样框架等。经典选择模型下的动态选品优化问题在近几年受到了学术界的关注,而本文将考虑更新颖的选择模型——即基于马尔科夫链建模的选择模型之下的含选品数目约束的动态选品优化问题;同时本文将基于多臂老虎机模式进行对问题的分析和求解。本文将通过对马尔科夫链建模的分析,考虑底层顾客选择行为由多项选择模型生成的经典在线学习问题,首先将提出这一经典问题之下基于马尔科夫链建模的含选品数量的选品静态选品优化问题的求解方式,通过一定的数学推导转换为线性规划问题,同时本文将结合相关的期望最大化参数估计算法,融合上置信度界限框架提出本文的在线学习算法;同时,本文将基于一定的数学性质和模型的结构性质,结合汤普森采样框架提出本文的第二个在线学习算法。同时,本文也针对算法进行了多角度的数值实验,首先进行了经典实验的设计并改进,与这个问题中的经典在线学习算法进行相关的对比;同时,本文将围绕算法运行时间、参数学习情况等方面进行设计实验,通过实验结果分析了算法和模型的相关特点与性质,同时实验结果也表明本文所提出的在线学习算法是表现良好的,同时在上置信度界限这个框架之下得到了非常大的改良,对学术界普遍认为的上置信度界限框架的实际效果表现不好的命题进行了一定的冲击。最后,本文基于前文的建模分析和实验结果,提出了基于马尔科夫链建模的相关性质总结和应用范围,同时重点将其余经典的多项选择模型进行对比,同时也通过本文的不足提出了后续的延展方向——考虑含选择轨迹的动态选品优化问题;有关最坏情形后悔度界限的理论证明与分析;以及其他更一般的选择模型建模。综上,本文是对基于马尔科夫链建模的选择模型的进一步延展,是这种新型选品模型的建模之下首次对动态选品优化问题的分析;本文通过考虑这种建模设定下的动态选品优化问题,并提出了相对应的高效求解算法,对于选择模型、动态选品优化、多臂老虎机模式以及在线学习、强化学习等领域都具有非常重要的意义。
其他文献
人们健康意识不断增强,但我国医疗资源却相对匮乏且不平衡,尤其经过新型冠状病毒疫情,人们对互联网医疗服务的需求急剧增长。患者通过在在线医患问答社区中发布问题或浏览历史记录,即可得到医生的病情分析与治疗建议,解决出门排队看病的部分难题并减少线下门诊机构的压力。在众多疾病分类中,存在一种康复类疾病。对于康复患者而言,由于疾病痊愈周期长,他们无法一直在医院接受治疗,因此对通过从在线医患问答社区中获取日常生
学位
随着互联网的广泛普及、经济的飞速发展以及人们受教育水平的逐步提升,线下获取知识的方式已经不是人们可以选择的唯一方式了,线上获取知识的途径日益丰富,同时,伴随着信息爆炸,人们越来越倾向于为高质量的知识付费来节省时间成本与注意力成本。知识交流平台作为一种重要的互联网交流社区,对互联网用户十分重要,因为其为用户们提供了非常重要的在线学习与分享知识的途径。如何维持知识交流平台上的用户进行积极的、活跃的参与
学位
金融市场的资产价格形成机制复杂。受到宏观与微观因素的影响,金融市场的环境总是处在不断地变化之中,这种非平稳的特性使得仅用单一策略刻画金融市场的算法(如ARMA、SVR、NN等)往往在样本内外存在着较大的差异性。为了解决环境非平稳的问题,强化学习的技术被引入了金融市场的在线动态决策问题中。强化学习(Reinforcement Learning,以下简称为RL)是一个智能体在与环境交互的过程中,通过与
学位
当前A股市场呈现出明显的“资金抱团”特征,即市场中大部分投资者的资金集中涌向白酒等抱团板块,不论机构或是个人的资产集中度都相应提升。这种资产集中度提升的另一面则是非抱团股票的普遍下跌,资金抱团与股指波动到底存在怎样的关系?抱团紧松与股价涨跌谁先谁后?考虑到现有关于抱团的研究较少,较多研究方法是基于基金、上市公司季报数据开展的量化分析,面临着信息披露度不足且滞后的问题,且较难刻画散户投资者或全市场对
学位
近年来随着我国金融市场逐步成熟,越来越多的股民涌入A股市场。散户投资者大多缺乏专业的投资知识,投资操作受情绪因素影响严重,容易出现追涨杀跌及羊群效应等现象。同时,中国股市具有明显的“牛短熊长”的特征,多轮的牛熊转换,使得大部分个人投资者难以适应大盘走势的快速变化,风险暴露往往较高,难以在获得长期稳定的收益。近年来计算机编程技术的高速发展,量化投资策略逐渐得到各方投资者的关注。量化投资是理性的投资策
学位
在经济学中“效率”一词占据着重要地位。资本市场融资效率也是资本市场理论的核心内容。研究一个国家的资本市场融资效率,能够在一定程度上正确认识和客观评价该国家的资本市场状况。近年来,柬埔寨股票市场逐步发展,为柬埔寨企业股权融资作出贡献。但柬埔寨企业过度依赖债务融资,这种单一化成为了企业融资及企业资本结构的关键问题,极大的制约了柬埔寨企业及柬埔寨股票市场的稳健发展。因此,研究柬埔寨股票市场股权融资效率的
学位
现代科学技术的迅猛发展,推动人类社会全面进入了信息时代,教育的时空界限也在不断被打破,在线教育随着互联网技术的普及在我国快速的发展。然而,在线教育的发展为学习者带来海量学习资源的同时也带来诸多困扰。随着在线课程资源的不断增加,用户往往需要花费大量的时间和精力去搜索查找想要的在线课程。个性化推荐技术(Personalized Recommender)就是利用用户本身的特征信息模拟售货人员在现场销售时
学位
股价波动规律一直是金融研究中的热点问题。公司决策既是自身理性思考的结果,也无可避免地会受到所处的独立董事网络的影响,进而也会反映在股价上。因此,研究上市公司独立董事网络对股价波动的影响,对公司提振股价以及监管部门平稳市场波动有着重要意义。而构建独立董事网络的方法有很多种,包括同乡关系、校友关系等,而本文采用了连锁董事的方法,即当两家公司董事会有至少一个相同独立董事的时候,就将二者连接起来。于是上市
学位
我国融资融券制度在2010年3月31日开始正式实施,通过这一制度,投资者获得了多样化的投资方式和风险规避手段,有利于增加股市的流动性和交易的活跃度。已有的融资融券制度研究多集中于融资融券对股票价格、市场流动性等的影响,较少关注融资融券制度对企业创新投资决策的作用。而创新是我国近些年来发展的关键词,我国于2020年最新出台的“十四五”规划蓝图将“坚持创新”列为未来五年十二项重要领域工作的首位,可见我
学位
溢价是一个证券市场术语,又称“高价发行”,对于股票而言,投资者愿意溢价购买股票的原因是基于对该股票未来升值空间的认可,溢价部分是对其现时承担投资风险的补偿。对于付息债券而言,投资者愿意溢价购买付息债券的原因是未来该债券所附利息的收益率高于市场必要收益率。与溢价相对的概念是折价,又称“低价发行”,如“封闭式基金折价之谜”,反映的是封闭式基金发行价格低于其净值的一种金融现象。因此,传统金融理论中的溢价
学位