基于DDPG算法的末制导律设计研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户：tomotar

【摘要】

：

末制导律设计是拦截系统中的关键技术,常用的比例制导律及其变型在目标大机动时性能下降,且受到导航比的影响.提出基于DDPG算法的末制导律设计方法,通过对拦截问题的环境状态和动作(控制量)进行设计,实现了从仿真环境交互数据中学习回报最优的制导律;与传统方法相比,该无模型方法更具灵活性;针对强化学习方法动作集假设偏置弱带来训练效率低的问题,进一步提出将导航比作为决策优化参数,加速了训练过程并实现动态调整比例制导律中的导航比.对比实验表明,两种强化学习末制导律设计方法获得了优于比例制导律及其变型的拦截效果,展现出

【作者】

：

刘扬何泽众王春宇郭茂祖

【机构】

：

哈尔滨工业大学计算机科学与技术学院,北京建筑大学电气与信息工程学院

【出处】

：

计算机学报

【发表日期】

：

2021年9期

【关键词】

：

末制导律强化学习确定性策略归纳偏置

【基金项目】

：

国家自然科学基金可微分深度注意模型及其参数自适应方法研究(62071154,61671188,61976071)资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

量子谱回归算法

子空间学习是机器学习领域的重要研究方向.为了降低子空间学习的复杂度,Cai等人提出了谱回归降维框架,并针对结合标签构造对应图的子空间学习提出了高效谱回归.近年来,量子计算的发展使进一步降低子空间学习算法的复杂度成为了可能.Meng等人率先提出了量子谱回归算法(MYXZ算法).MYXZ算法用了稀疏哈密顿量模拟技术来处理由权重矩阵生成的矩阵,但这个矩阵在较多的情况下是稠密矩阵.针对这种情况,指出了MYXZ算法的局限性,提出了一个改进的量子谱回归算法.改进算法采用了量子奇异值估计技术,在处理稠密矩阵时相对MYX

期刊

量子算法量子机器学习谱回归子空间学习稠密矩阵

基于自适应分解的多任务协作型昂贵多目标优化算法

现实世界的工程优化问题通常需要同时优化多个冲突的目标,且这些目标函数的评估由于依赖仿真、物理实验而十分昂贵,这类问题被称为昂贵多目标优化问题.使用机器学习方法建立

期刊

代理辅助进化算法昂贵优化多目标优化多任务高斯过程模型多种群协作搜索

基于可解释基拆解和知识图谱的深度神经网络可视化

近年来,以卷积神经网络(CNN)等为代表的深度学习模型,以其深度分层学习,无标签化学习等优势,已在图像识别为代表的各个领域得到日益广泛的应用.然而,深度神经网络模型由于其内在的黑盒原理,对其内部工作机制的解释仍然面临巨大挑战,其可解释性问题已成为了研究界和工业界的前沿性热点研究课题.针对现有研究存在的缺乏基于图谱的可解释性方法的问题,以及可解释基模型的图谱构建优势,本文提出了一种基于可解释基拆解和知识图谱的深度神经网络可视化方法.首先采用一种面向可解释基模型特征拆解结构的知识图谱构建方法,构建了场景和解释

期刊

深度神经网络可视化可解释基拆解模型知识图谱解释深度学习模型

带有时间预测辅助任务的会话式序列推荐

会话式序列推荐旨在根据短期匿名行为序列预测该用户近期行为,因为该任务设定考虑了用户偏好的变化而备受学术和工业界关注.现有方法集中于以单任务模式预测下一交互对象,忽略了行为时间预测辅助任务中的额外语义.在面向事件、地点的一般序列推荐问题中,有少数方法以并行方式同时预测下一交互对象及对应时间,然而这并不完全契合用户先产生交互意图再选择合适时间的实际情况.为缓解上述问题影响,本文提出了一种基于序列式多任务学习的会话式序列推荐方法,具有两方面特色.首先,该方法通过将下一交互对象预测结果作为下一时间预测的输入,赋予

期刊

会话式序列推荐交互对象预测时间预测序列式多任务学习自注意力网络

基于变分贝叶斯层次概率模型的非刚性点集配准

非刚性点集配准是计算机视觉和模式识别领域的基础研究问题,现今的非刚性点集配准算法在存在大量离群点、噪声、点集对应关系缺失、旋转和形变情况下,不能非常准确地评估出两个点集间的对应关系.本文通过交替执行点集对应关系评估和空间转换更新两个步骤来逐步恢复点集间一一对应关系.在对应关系评估步骤,首先本文基于有限重尾学生t分布隐变量混合模型(student-t distribution Latent Mixt

期刊

非刚性点集配准变分贝叶斯层次概率模型贝叶斯线性回归树状平均场自适应全局-局部约束策略双阶段先验退火方案

基于动态类簇形成博弈的属性图聚类方法

以微博、微信为代表的社交网络不仅包含丰富的节点属性信息,还蕴含复杂的网络拓扑信息,这些社交网络通常可被建模为属性图.传统的图聚类方法假设节点属性与网络拓扑共享同一类簇结构.然而,在真实社交网络中,节点属性与网络拓扑所对应的类簇结构并非完全一致.譬如,通过社团发现技术分析新浪微博的好友关注列表能够直观地获取聚集在同一群组的用户集合;而借助文本挖掘技术分析同一群组的用户生成内容却会发现用户讨论话题的分布广泛,体现出差异化的用户偏好特征.如何有效融合属性与拓扑信息对属性图进行聚类是理解、分析和可视化大规模社交网

期刊

属性图聚类多目标优化动态类簇形成博弈局部帕累托最优自治计算

ELM网络结构自适应正交搜索算法

由于具有灵活的非线性建模能力和良好的模式识别能力,单隐藏层前馈神经网络(Single Hidden Layer Feedforward Neural Network,SLFN)一直是机器学习和数据挖掘领域关注的焦点.众所周知,网络结构是影响SLFN泛化能力的重要因素之一.给定一个具体应用,如何在训练过程中自动选取最优的隐节点个数,仍是一大挑战.极限学习机(Extreme Learning Machine,ELM)通过随机生成隐藏层节点参数,并利用最小二乘法求解输出层权值的方式来训练SLFN,在一定程度上克

期刊

子集模型选择紧凑网络结构极限学习机正交前向选择正交后向移除颜色恒常性计算

跨语言知识蒸馏的视频中文字幕生成

视频字幕生成(video captioning)在视频推荐、辅助视觉、人机交互等领域具有广泛的应用前景.目前已有大量的视频英文字幕生成方法和数据,通过机器翻译视频英文字幕可以实现视频中文字幕的生成.然而,中西方文化差异和机器翻译算法性能都会影响中文字幕生成的质量.为此,本文提出了一种跨语言知识蒸馏的视频中文字幕生成方法.该方法不仅可以根据视频内容直接生成中文语句,还充分利用了易于获取的视频英文字幕

期刊

中文字幕生成视频理解知识蒸馏视频中英字幕数据集特权信息

基于优化子目标数的Option-Critic算法

时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,

期刊

分层深度强化学习时间抽象子目标强化学习OPTION

量子错误缓解研究进展

由于与环境的相互作用及对量子设备的控制中存在的偏差,量子设备总是在不断产生错误.若不对这些错误加以处理,错误的积累会使得量子算法的实施变得毫无意义.成熟量子计算机的实现依赖于量子纠错技术以纠正量子设备中的错误.然而,由于量子纠错开销巨大,其难以在近期量子设备中实现.故在有噪声中等尺寸量子时代,以变分量子求解器为代表的量子算法选择量子错误缓解技术来压制错误,而非纠正它们.量子错误缓解允许仅通过中等大小的额外资源获得可以接受的计算精读,并已在理论及实验上展示出其可行性.旨在介绍与总结量子错误缓解领域的最新进展

期刊

量子计算近期量子设备量子错误缓解量子算法有噪声的中等尺寸量子时代

基于DDPG算法的末制导律设计研究

与本文相关的学术论文