融合演化计算和强化学习的机器人自适应形态算法研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:lucasyvette
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何设计出能够自动适应不同任务环境的智能模块机器人一直是一个非常有研究价值的问题。当前,大多数模块机器人的结构和控制策略都是由研究人员针对某一特定任务环境设计出来的。这使得模块机器人在任务环境发生变化时无法自动的对结构和控制策略做出调整。为了让模块机器人能够在仅给出任务目标,但没有预先知道整个任务环境的情况下,可以自动地根据所处的场景对结构和控制策略进行调整,本文提出了以下两种算法。(1)为了令模块机器人可以无需人工干预自动的适应不同的环境,本文基于遗传算法框架提出了两阶段自重构算法(TSRA)。该算法分为现实自重构(AR)和经验自重构(ER)两个阶段。在现实自重构阶段,算法在现实环境中测试给定的模块机器人结构和控制策略,选出最优的结构和控制策略,同时利用该阶段产生的数据对评估神经网络(ENN)进行优化。在经验自重构阶段,算法利用评估神经网络对模块机器人结构和控制策略进行评估,选出适应度高的结构和控制策略供现实自重构阶段测试。相对于简单的遗传算法,采用经验自重构阶段提高了两阶段自重构算法的搜索速度和搜索效率。(2)为了令模块机器人可以自动根据局部环境对自身的结构进行调整,本文根据基于模型的(model-based)强化学习方法,提出了结构自动设计算法(SADA)。该算法可以在无需与环境交互的前提下针对不同的局部环境设计出对应的结构。为了实现结构自动设计算法,本文提出了结构自动设计网络(SADN)和与其对应的预训练方法——ST-STR。在训练数据量相同的情况下,ST-STR方法可以有效的对结构自动设计网络进行训练,达到较好的训练效果。基于结构自动设计算法,本文对遗传算法进行了改进,提出了SADN-REGA算法。SADN-REGA算法在面临新的环境时首先利用结构自动设计算法设计模块机器人的结构,接着利用遗传算法搜索合适的动作。与两阶段自重构算法相比,SADN-REGA算法减少了遗传算法的搜索空间,提高了遗传算法的运行效率。最后,通过与RE-GA和CEM-RL等演化及强化算法的一系列实验对比,证明了TSRA和SADN-REGA算法可以使机器人自动的调整自身结构和控制策略以快速通过任务环境。
其他文献
我国环境行政公益诉讼制度存在事后救济的问题。当行政部门不依法行使职权或缺乏履职意愿时,为防止环境公益实际受损,应发挥环境行政公益诉讼的预防功能,在满足环境损害发生的高度盖然性和环境损害后果重大性的条件下,赋予检察机关发出检察建议或提起环境行政公益诉讼的权力,纠正行政机关作出的违法行政行为或督促行政机关履行法定职责,以弥补预防功能缺失的漏洞。环境行政公益诉讼预防功能是指允许检察机关对可能引发环境风险
学位
在环境污染的刑法规制领域,污染环境罪的出台降低了原来的“重大环境污染事故罪”的入罪门槛。在定罪量刑上,最高人民法院和最高人民检察院出台了具有可操作性和可执行性的司法解释,进一步推动了环境保护的司法力度。然而,关于污染环境罪的主观罪过形式,无论是刑事立法还是司法解释,均未有明确的规定,使得本罪在司法实践中面临诸多新问题。主观构成要件要素是污染环境罪研究中的关键问题,对建立科学的、合理的污染环境罪司法
学位
我国《民法典》规定了不动产抵押权以登记为设立要件,但在实践中存在大量未经登记的“不动产抵押权”。未经登记本身虽不影响不动产抵押合同的生效,但是不能有效设立不动产抵押权。因此,应当首先明晰未登记不动产抵押合同这一状态的性质,因其认定与后续责任的分配承担、法律救济的举措密切相关。一方面,从学界视角出发,着重进行未登记不动产抵押性质的理论界定,将当前学者对此问题的看法归纳总结为非典型担保说、连带保证说以
学位
油气田单井生命周期是指从井的诞生到消亡的整个过程,包括钻井、测井、生产、报废等的所有业务和数据。目前,石油勘探开发数据管理存在数据可用性差、数据检索复杂、服务对象单一等问题。因此,实现以井为单位,以时间为轴线的数据管理技术研究对于石油勘探开发数据管理具有重要意义。针对以上问题本文展开了如下研究:首先,研究了基于主题域、业务流和数据流的油气田单井生命周期本体知识划分方法,参照油气田单井生命周期和领域
学位
双层股权结构作为一种绝大多数存在证券交易所的国家与地区所普遍认同的一种上市公司治理结构,如何实现对于双层股权结构上市公司的有效监管,利用监管手段发挥制度优势,限缩可能风险,一直以来都是世界各国在允许双层股权结构公司上市时所需面对的首要问题。基于增强我国证券交易所竞争力的考量,上海证券交易所新设的科创板正式引入双层股权结构,这为我国公司提供了更多制度选择的同时,也对法律监管体系提出了更大的挑战。特别
学位
时序数据普遍存在、实用性高,与无序数据相比,在趋势预测、规律发现方面价值很高。收集时序数据时,采样间隔不固定,高频采样成本较大,样本数据偶有缺失,导致数据质量欠佳。压缩感知是数字信号处理领域一种新的采样理论,针对连续信号采样过程有很好的效果。本文将压缩感知重建用于时序数据的优化,做出以下工作。首先,针对完全随机缺失(Completely Random Missing,CRM)机制下的时序数据集缺失
学位
目前,我国陆地上大部分的含油气储层业已进入了勘探开发的中后期阶段,紧随其后的是不断加大的勘探开发难度,持续增加的人工时间及生产作业成本,油气勘探面临着越来越严峻的考验。合理利用地震数据可以有效地帮助研究人员进行储层预测,而地震属性提取是开展相关工作的基础。常规地震属性研究工作中,地震属性数据与预测对象之间关系千头万绪,如何减少工作中非必要的属性提取造成的效率低下,合理地选择地震属性是亟待解决的问题
学位
世界各国,不管是大陆法系国家还是英美法系国家都对辩护律师的权利进行了保障,这是“惩罚犯罪”与“保障人权”的内在要求。由于我国历史“无讼”文化和“善有善报,恶有恶报”的淳朴的儒家思想的长期影响,导致我们注重打击犯罪嫌疑人、被告人,对作为其委托的辩护律师持片面印象,认为辩护律师是在为“恶人脱罪”。英国哲学家培根曾经说过:“即使只有一次不公平的审判,产生的后果都要超过十次犯罪所造成的后果,不公平的审判其
学位
农村集体成员收益分配请求权属于成员权的内容。农村集体成员基于成员身份对农村集体收益享有请求分配的权利,一旦集体组织不履行分配职责或滥用分配职权,存在应分配却不分配的情形,集体成员可以通过行使收益分配请求权来实现自己的合法权益。集体收益的分配应从两个方面理解:一是集体的管理决策机构应根据法律、法规和章程的规定及时履行分配收益的职能;二是在集体收益满足分配条件时,农村集体成员享有请求集体管理决策者向自
学位
智能终端的普及与应用极大的促进了轨迹数据挖掘领域的研究与探索,得益于GPS(Global Positioning System)等导航技术的发展,这些智能终端记录了大量的移动个体的出行轨迹信息。通常而言,移动个体会使用多种不同的出行方式,这使得移动个体的完整轨迹信息会被分散地记录在不同智能终端所对应的轨迹数据库中。如何将这些分散的轨迹从这些轨迹数据库中甄别出来从而拼接成一个移动个体的完整出行轨迹是
学位