基于强化学习的多箱型三维装箱问题的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong589
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务等的高速发展以及物流产业的蓬勃发展,快递规模的急剧增长。货物装箱是物流过程中一个必不可少的环节,如何减少所需包装耗材量从而降低成本成了广泛关注的问题。在实际的物流场景中,仅凭员工经验不可避免会造成浪费,三维装箱问题的实际效益越来越凸显。其中多箱型三维装箱问题是抽象于实际装箱场景的一种三维装箱问题。对于多箱型三维装箱问题,由于打包步骤之间的相互影响,问题较为复杂,目前解决方案多为启发式算法,并没有针对性的基于学习的解决方案。所以如何通过基于学习的方法有效解决多箱型三维装箱问题是一个亟待研究的课题。针对上述问题,本文通过对多箱型三维装箱问题进行分析和建模,提出了基于强化学习的多箱型三维装箱算法。算法基于Transformer模型结合条件查询机制和注意力机制构建神经网络模型,然后使用强化学习算法训练对网络进行优化,从而使得装箱质量最优。首先,本文定义多箱型三维装箱问题。先进行问题表述并从数学角度给出具体约束,然后将问题建模成马尔可夫决策过程,定义了多箱型三维装箱问题状态空间和动作空间,并针对问题设计了奖励信号。然后,本文针对多箱型三维装箱问题设计并实现了基于强化学习的三维装箱算法。本文首先构建了一个基于Transformer的注意查询神经网络模型,然后通过强化学习的方法进行训练优化网络参数来得到装箱方案最优解。本文构建的注意查询网络是对传统的Transformer模型进行了改造,注意编码器基于环境窗口观测到的局部信息以及隐藏层缓存中的局部隐藏层状态进行注意力编码。查询解码器则通过查询机制串联各个子动作。本文基于提出的注意查询网络,搭配策略梯度搭建智能体得到装箱算法LAQPG。为减少方差避免局部最优又提出基于A2C和注意查询网络的装箱算法LAQAC。为增加探索又在LAQAC的基础上增加熵正则项得到装箱算法LAQEAC。最后,对本文提出的多箱型三维装箱算法进行对比实验,验证有效性和稳定性,对训练情况进行了比较。本文指定装箱质量指标来衡量算法性能,基于三种不同货物规模的实例使用了五个不同的算法与本文提出的装箱算法进行实验对比。实验结果表明,本文提出的基于强化学习的多箱型三维装箱算法,相比其余五个对比算法装箱性能上有一定的提升,证明了算法是有效稳定的,且使用A2C和熵正则项有助于算法的装箱效果提升。
其他文献
随着现今物联网技术和5G网络的飞速普及,智能交通设施、智慧城市建设、移动支付等新型的服务生活模式和业务持续性迭代更新。“信息感知”的思维态势开始逐渐扩展至物联网体系内,万物互联的大数据处理时代已然来临。然而,由于云计算与万物互联特定属性中的矛盾,仅仅凭借云计算的集中计算处理技术,难以支撑基于物联网感知的应用运行和海量数据处理。为此,融合目前流行的云计算集中处理方式,智能云边端协同可以高效处理云中心
学位
移动网络的发展给人们生活带来了极大的便利,使用移动应用可以在线处理众多事务,如转账、购物和导航等,然而在享用移动应用提供便利的同时,不可避免的需要将个人敏感信息保存至移动设备或上传到远程服务器中,因此对于这些敏感信息的保护显得尤为重要。为了实现应用、系统以及其他资源之间的安全访问,防止信息的泄露,安卓系统提供了权限机制用于控制应用对系统资源(如麦克风,摄像头等)和其他应用组件的访问,很多移动应用自
学位
随着社交网络的快速发展与人脸识别系统的广泛普及,用户在社交网络中发布的包含个人身份特征的图像和视频越来越多,这些图像与视频非常容易被恶意用户利用来攻击人脸识别系统,从而威胁用户的合法利益。社交网络的隐私保护方法对计算效率有较高要求,并且需要在保证图像视觉效果没有受到较大影响的前提下尽可能增加隐私性。传统的基于对抗样本的隐私保护方法计算效率较低且方法的隐私性能受到目标模型知识的限制,在对抗样本的计算
学位
近年来,伴随着人工智能、网络安全、信号对抗、无人系统集群控制技术的发展,相关技术的实现在给人们带来便利的同时,无人系统集群自身的安全问题也引起了广泛关注。在现今生活中常见的无人系统集群中,常遇到来自外界的信号干扰和恶意攻击者的洪水攻击或DOS攻击,但是由于现实情境的多样性和信号干扰的复杂性,无人系统集群的识别和控制常常出现各种困难,从而造成财产或其他损失。因此,针对无人系统的识别分类技术和针对性的
学位
蓬勃发展的各类社交网络应用在给人们的生活带来极大便利的同时,也引起了人们对于隐私安全的担忧。用户使用社交网络发布的数据中常常含有个人隐私信息,这些隐私一旦泄露将对用户造成极大危害。然而多数用户无法合理评估他们数据中存在的隐私风险,难以选取合适的防护措施实现有效的隐私保护。因此,亟待解决对社交网络数据中用户隐私信息的精准感知与动态度量问题,支持隐私保护。本文以社交网络上用户自发布的多元异构数据为研究
学位
在互联网迅速发展的时代,尤其是疫情频发的当下,线上密封式拍卖完全突破了地域限制,为竞拍者创造了足不出户的竞拍环境。互联网线上拍卖已然形成了一种新的经济模式。与此同时,区块链已经成为一项逐渐成熟的应用手段,其凭借着去中心化、公开、不可篡改、可追溯等特性在金融、医疗等各行各业都发展出落地应用,这些应用也为线上密封式拍卖提供了一种新的设计思路。将线上拍卖和区块链相结合,可完全去除第三方拍卖行的参与,真正
学位
现实世界中的许多复杂系统都可以被建模表示成复杂网络。系统中的实体被表示为节点,实体之间的关系被表示为边。作为复杂网络分析中的一个基本问题,链路预测在过去的十几年间得到了广泛的研究。链路预测的目标是根据当前观察到的网络信息推断出已经存在但未知或者未来可能产生的链接。由于链路预测有助于人们理解现实世界网络的内在特征和演化机制,其已被广泛应用于许多实际场景,如友谊和物品推荐、知识图谱补全和生物反应重构。
学位
遥感进行远程的数据采集,获取大范围的区域信息。遥感图像在农业领域可进行植物观测,在气象领域可进行天气预报,在地质领域可进行环境探查,在各种领域都可以发挥作用。近年来,遥感图像的空间分辨率获得了提高,图像涵盖更多信息,每个像素点代表的地面区域更大。相对地,遥感图像中的对象变得更密集、更难以判别。在保证高空间分辨率的同时,从硬件的角度来提升成像分辨率较困难,不仅研发成本高昂,数据的传输成本也会增加。本
学位
近些年来,外科手术机器人系统快速发展,促使针对各类型疾病的外科手术过程向着更加稳定、安全、高效、低成本的方向发展,深刻影响着传统的外科手术流程和医疗器械的一般定义。其中,自我状态估计和环境感知能力的构建作为机器人系统的基础任务,对于这一领域的发展尤为关键。然而,在由外科手术和各类人体内部器官腔体组成的特殊任务场景中,这一功能的实现面临着巨大的挑战。本文中,为了在口腔咽喉这一特殊狭小空间内构建起手术
学位
研磨环保设备广泛应用于各行各业,其使用过程产生的粉尘易引发爆炸事故。同时设备运转依靠工人值守,效率低下,安监部门无法实时巡查监管,已销售设备无法统一管理,设备产生的数据无法高效利用。现有的研磨环保设备服务平台系统多采用传统技术架构进行开发维护,在性能、安全性、扩展性方面存在优化空间。本文设计了一个服务于研磨环保设备生产商、研磨环保设备使用企业、国家安全监察部门三方使用的统一服务平台型系统。该系统主
学位