基于强化学习的多目标组合优化算法的研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户：ghgbmnmaps

【摘要】

：

【作者】

：

顾一凡

【机构】

：

南京航空航天大学

【出处】

：

南京航空航天大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现实世界的工程优化中存在着大量含有多个冲突目标的组合优化问题,被称为多目标组合优化问题。强化学习,作为常见的时序决策方法,可应用于求解组合优化问题。本论文围绕强化学习与多目标组合优化开展交叉研究,主要研究内容包括以下两方面:首先,Pareto局部搜索是求解多目标组合优化问题的主流方法之一。在Pareto局部搜索中,如何选择一组好的初始解集并对其邻域进行搜索,将决定其最终性能。我们将多智能体强化学习（MARL）应用于Pareto局部搜索的选解过程:将目标域空间表征为强化学习的状态空间。为了对其进行有效的压缩,使用了网格系统对目标空间进行离散化。同时,奖励函数中使用超体积指标来反映智能体选择对下一代种群的影响并将区域选择作为MARL的动作。使用通过MARL与网格Pareto局部搜索的交互,对MARL模型进行训练。MARL能够自适应地调整选解策略,提升了 Pareto局部搜索的性能。第二,结合了深度强化学习中的Actor-Critic算法和多目标优化种的网格分解技术,提出了一种基于迁移深度学习的多目标组合优化算法（TDRL-MOA）。具体过程为,将一个多目标组合优化问题分解为多个单目标组合优化子问题,子问题模型分为边界与内部模型。每个子问题上使用Actor-Critic训练深度强化学习模型。通过整合已训练子问题与未训练子问题信息为一个种群,多目标优化分布性度量指标贪心地选择下一个对整体种群指标贡献最大的待训练子问题。随后,已训练模型在待训练子问题上使用切比雪夫函数进行评估。最后,具有最小切比雪夫函数值的子问题模型参数将被迁移作为待训练子问题模型的起始参数。实验结果表明了 TDRL-MOA在不同规模的同一个测试问题上具有较好的性能与泛化能力。

其他文献

基于多源主动迁移学习算法的时间序列预测研究

传统的时间序列预测由于非常依赖于距离被预测数据较近的样本数据,所以其总是假定有足够的训练数据可以获得且获得的训练数据和测试数据服从相同的分布。但是在现实生活中存在各种局限性,距离被预测数据较近的样本数据总是难以获取或者得到的数据量相对较少,这将无法直接使用传统的时间序列预测算法。反观若干年之前的老数据,其较为容易获得且数据量较大,若将其直接抛弃,则会导致相当一部分数据信息的流失。于是,避免直接抛弃

学位

中文网络短文本情感和主题分析研究

随着互联网技术的发展,人们越来越习惯于在网络进行购物并发表评价,或者对热点时事发表观点。对于海量的网络文本进行分析,寻找文本主题并对文本进行主题分类并提取其情感倾向已经成为NLP重要研究方向。政府和公司越来越多地通过此方法分析研究人们对周围不同事物、不同事件的观点和看法,并利用收集到的信息指导接下来的工作。传统的情感分析和主题分析一般是基于词典展开的,但是词典的构建需要花费大量的人工时间,且在不同

学位

面向多跳物联网的恶意节点检测技术研究

多跳物联网拓扑灵活,接入设备数量、类型繁多,设备的硬件、软件安全性低,使整个网络安全性不足,易遭受来自内部的恶意攻击。攻击者可入侵物联网设备节点,并使用这些节点窃取敏感的网络数据,篡改网络中的数据,恶意丢包,甚至发动拒绝服务（Do S）攻击等。攻击者从网络内部发起攻击,使面向外部攻击的防护措施失效。内部攻击通常具有隐蔽性,且物联网设备资源有限,使得如何在多跳物联网中高效地定位恶意节点成为难题。因此

学位

基于交叉范式的触控交互技术研究

目标选取是人机交互界面最基本的任务之一。交叉范式（crossing paradigm）是一种重要的目标选择方法。该范式已经在鼠标、笔、触控以及虚拟现实交互界面中得到了广泛的关注。然而,在触控交互界面中,目前对于静态以及动态目标选取任务的交叉范式的研究仍存在一定的不足。因此,本硕士论文开展了如下研究工作。第一,现有对基于交叉范式静态目标选择的研究没有考虑干扰项的影响。因此,本文对六种干扰项界面布局的

学位

面向航电自然语言需求的形式化模型生成方法研究与实现

安全关键软件是一类应用于航空、航天等安全关键领域的软件,由于应用场景的要求,软件自身的复杂度很高,且必须具备高安全性和高可靠性等特征,因此如何有效且正确的开发此类软件成为一个重要挑战。从软件工程生命周期的角度考虑,构造一个满足完整性、一致性且组织良好的需求制品是提高安全关键软件质量的重要方法。本文工作面向航电机载软件领域,设计一种从自然语言描述的条目化需求到形式化需求模型生成的方法,具体研究内容包

学位

时间依赖路网查询处理技术研究

基于位置的服务已成为个人应用中的基础服务。其中路网查询技术又是极为重要的技术,目前针对路网查询问题进行的工作主要分为基于欧式距离查询和基于路网距离查询两种。现用户在考虑传统静态路网采用的通行距离成本之外,还十分重视时间成本,即相应道路的通行时间。因此将其纳入道路查询研究范围有着十分重要的现实意义,同时也有非常广阔的应用前景。与传统研究的静态路网不同,时间依赖路网中道路的权重是随时间的推移而改变,这

学位

面向区块链的电子病历检索方法

电子病历数据共享是当前的一个研究热点,区块链作为一种分布式账本技术,具有去中心化、防篡改和可追溯等特点,通过区块链技术可以保证电子病历数据不被篡改,并实现数据共享。但是由于区块链独特的块链式结构限制,交易数据存储在“区块体”中,不能经由链对交易数据的具体细节进行直接检索,因此,如何对区块链数据执行高效的检索是值得研究的。现有的针对区块链数据检索方法的研究主要分为外联数据库和内置索引两种。基于外联数

学位

无人机智能拍摄控制技术研究

尽管基于无人机的图像应用已经在军事和民事领域得到了广泛应用,但目前这些应用存在着实时性差、成本高和需要人参与其中等缺陷。随着人们对无人机自主执行实时图像处理任务的需求越来越强烈,基于人工智能、嵌入式系统和网络等技术,该领域的相关技术能够得到较好的发展。本硕士学位论文的研究目标是:研究无人机智能图像应用技术,设计基于人工智能的云台相机控制方法,实现能够支持实时拍摄特定目标特写照片的应用。本文主要的工

学位

基于增量学习和集成学习的非平稳时间序列预测研究

时间序列是在固定采样间隔内收集的一系列观测值,现实生活中的时间序列大多是非平稳的,这意味着其分布会随着时间而变化。非平稳时间序列具有的非平稳、高噪声及周期性等特征,导致非平稳时间序列预测（NS-TSP）任务具有一定的难度。NS-TSP问题的相关研究方法有传统统计方法、计算智能方法和组合预测方法等,其中组合预测方法是主流方法。将增量学习（IL）和集成学习（EL）相结合用于非平稳环境下的各种任务被验证

学位

基于极限学习机算法的农业绿色智慧评价系统

通过整理相关的研究数据，建立了基于2个层次、4个一级指标和20个二级指标的农业绿色智慧发展水平评价体系和神经网络样本集。基于该样本集对极限学习机算法进行训练，建立了基于极限学习机算法的农业绿色智慧评价系统模型。并使用测试数据集对极限学习机的预测性能进行测试。测试结果表明，该评价模型可以对农业绿色智慧发展水平进行有效的预测，具有一定的应用价值和产业化前景。

期刊

基于强化学习的多目标组合优化算法的研究

与本文相关的学术论文