一种通过强化学习的四旋翼姿态控制算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:nana119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出通过深度强化学习实现四旋翼姿态控制.通过对深度强化学习中的近端策略优化实现姿态稳定的控制学习任务.飞行器直接通过神经网络进行训练,直接将状态输入映射到控制输出.其次提出一种崭新的算法通过将传统的控制模型引入来提高强化学习算法的训练速度.经过实验验证,该算法可以有效控制四旋翼在任意姿态下的稳定性,且该算法可以在比一般强化学习方法更具泛用性更快收敛.
其他文献
本文以线上教育平台“易加学院”为例,解读了教师在智能场景下生动化、多元化与个性化的教学方式与学生在课堂中交互、合作、探索式的学习体验.由此可知,在未来新技术赋能的小学英语课堂中,学生的深度学习与自主学习将成为主流.新时代的英语教师应不断提升自我,更加高效地构建“教智融合”的新式课堂,促进学生英语核心素养的发展.
庄子和惠子在濠梁观鱼,成就了极为著名的一段辩论。庄子曰:“鱼出游从容,是鱼之乐也。”惠子曰:“子非鱼,安知鱼之乐?”庄子曰:“子非我,安知我不知鱼之乐?”……关于此段辩论谁占上风,各家各有见解,有从逻辑角度分析的,有从认识论角度分析的,有从道家思想分析的。笔者试从规则和元规则(Met a-rul e)的角度分析之,庄子提出“子非我,安知我不知鱼之乐”?他显然并不打算真的去解释自己是如何“知”的,因为那很有可能落入惠子预设的私有感觉无法共享的陷阱,于是他跳出了惠子的游戏规则,将解释“知”的问题,提升到如何“
江苏省信息技术学科2020年开始执行《普通高中信息技术课程标准(2017年版)》(以下简称新课标),这意味着本年度入学的学生将要在2021年底参加学测。俗话说:凡事预则立,不预则废。新标准、新教材背景下,如何确保学生顺利通过合格性考试,需要学校、教师、学生及早谋划,在变与不变中找到应对之策。新课标将信息处理过程中隐含的信息意识、计算思维、数字化学习与创新、信息社会责任作为学科核心素养重点凸显了出来。
字体的类型和特点rn邱元阳:最初人们是采用点阵的方式来显示字体,由于点阵的大小是固定的,当字体放大或缩小时,就会产生方块和断裂,满屏的马赛克和凌乱笔画使字体非常难看.为了解决字体缩放问题,Adobe公司在1985年提出了一套矢量字体标准PostScript.这套字体有Type1和Type3两种,Type1复杂且精细,可向字体内增添自己的隐含信息,单独出售,而Type3则无法增添隐含信息,公开发行,得到广泛流行.免费的Type3受到各大公司的追棒和使用,这使得Adobe有些后悔,于是推出了渲染效率更高的Di
期刊
作者以工程造价软件精品课程为例,构建了“物理-事理-人理”模型,打造了基于WSR系统与信息技术融合的智慧学习系统.在此模型中通过智慧学习,学生学会了知识和技能,陶冶了工匠精神;教师提升了信息化素养和课程思政素养,收获了教科研业绩.
远程监督关系抽取是自然语言处理领域的重要任务之一.由于识别实体关系的任务是在句子级别进行的,注意力机制分配权重可能存在误差,且现有深度学习模型常采用卷积神经网络进行最终关系分类,并不能充分利用标记实体的位置信息.本文提出了一种结合注意力及胶囊网络的多通道关系抽取模型(BG-AMC),该模型首先通过双向GRU神经网络对句子词向量进行编码以获取句子的高维语义,接着利用注意力机制辅助生成句子的多通道表示,最后采用胶囊网络进行关系分类.多通道中的每个通道在递归传播时互不影响,可以使神经网络学习到同一句子的多种表示
句子语义等价识别任务(SSEI)在问答任务中扮演着至关重要的角色.目前,基于中文的语义等价任务在没有给定场景的前提下直接判断两个问句的语义,仍存在相同的意思也会被错误理解的问题.因此,本文提出了一种丰富特征信息提取的RFEM(richer feature extraction model)模型.首先,在编码层中,使用CNN和LSTM分别提取局部特征、存储历史信息特征,融合后的编码信息经过对齐层中的变体多头注意力机制,更大化地保留了原始信息的完整性;其次,在对齐层中,对融入了残差特征的编码进行优化,避免网络
本文提出了一种结合模糊逻辑的灰狼优化算法.本文利用模糊逻辑对灰狼算法的收敛性和多样性进行改进,在狼群迭代过程中加入对多样性度量和误差度量的性能考量,设计了可实现参数动态自适应的模糊规则,从而使算法能够在寻优过程中实时调整收敛速度并提高求解精度.首先,利用30、64和128维度的基准数学函数表明该方法的可行性,然后引用假设检验表明方法的有效性,最后将其应用于柔性外骨骼机器人姿态数据的聚类分析.实验结果表明,在分析的基准函数上,该方法比原始灰狼算法以及其它模糊灰狼算法的性能更好,在姿态数据的聚类上,基于该方法
针对传统RBF网络在环境污染物预测中出现的泛化能力弱和准确度低的问题,提出一种组合最近邻聚类算法(NNCA)和改进灰狼群(IGWO)的优化预测算法.首先,针对RBF网络中心参数学习不足,利用最近邻聚类算法(NNCA)调整RBF神经网络的聚类中心参数;其次,针对灰狼群算法寻优能力不足,利用sin函数对参数ɑ进行非线性调整,利用适应度加权系数进行位置调整,得到改进的灰狼群优化算法(IGWO),利用IGWO优化算法进行调整RBF神经网络的权值参数.最后利用NNCA-IGWO-RBF算法对草原环境中的PM10浓度
基于网络模型的推荐算法是当前推荐系统研究领域的热点,其中,基于资源扩散的推荐算法以“用户-物品”二部图为基础.然而,这类算法仅依靠用户和物品之间的选择关系和喜好程度确定资源扩散方式,并未考虑用户之间信任关系的强度.本文提出了一种融合信任关系的热传导和物质扩散混合推荐算法,首先借鉴社会心理学中人际信任产生的原理,从用户行为、用户上下文以及用户兴趣偏好3个方面,构建一个基于相似度的无向含权信任关系网络;然后生成“用户-用户-物品”双层网络,让资源在双层网络中按照权重比值进行扩散以实现个性化推荐;最后在Movi