基于蚂蚁优化算法的分层强化学习

来源 :计算机应用研究 | 被引量 : 3次 | 上传用户：jianzhu119

【摘要】

：

自主系统中,agent通过与环境交互来执行分配给他们的任务,采用分层强化学习技术有助于agent在大型、复杂的环境中提高学习效率。提出一种新方法,利用蚂蚁系统优化算法来识别分层边界发现子目标状态,蚂蚁遍历过程中留下信息素,利用信息素的变化率定义了粗糙度,用粗糙度界定子目标;agent使用发现的子目标创建抽象,能够更有效地探索。在出租车环境下验证算法的性能,实验结果表明该方法可以显著提高agent的

【作者】

：

周晓柯孙志毅彭志平

【机构】

：

太原科技大学电子信息工程学院,广东石油化工学院计算机科学与电子信息系

【出处】

：

计算机应用研究

【发表日期】

：

2014年11期

【关键词】

：

蚂蚁系统优化算法强化学习 OPTION 瓶颈边 ant colony optimization reinforcement learning Option

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

社会感知多副本车载自组织网络机会路由协议

为提高车载自组织网络(vehicular Ad hoc networks,VANETs)中消息投递的效率,提出了一种社会感知多副本车载自组织网络机会路由协议(SAMOR)。协议结合了车载自组织网络中节点的社会性特点和多副本路由方案的优势,采用携带—存储—转发的机会路由方式进行消息投递。利用节点间的相遇历史区分社区节点和全局节点,并使用所提出的节点社区中心性和网络中心性的度量方法,得到了节点的效用。

期刊

社会感知多副本车载自组织网络机会路由socially aware multiple-copy vehicular Ad hoc networks

面向隐形群体的复杂网络疾病传播模型

针对复杂网络经典疾病传播模型中没有考虑隔离制度的情况,研究了患有病毒、但因患病特征不明显暂未被隔离的隐形群体对疾病传播的影响。引入隔离率等因素对SIR疾病传播模型进行了改进,建立了疾病传播的SIQ(susceptible-invisible-quarantined)模型。以2013年爆发于我国的H7N9流感病毒为研究背景,利用微分方程,对传染率、接触率和隔离率在SIQ疾病传播模型中的作用进行了仿真

期刊

复杂网络传播模型隐形群体微分方程隔离率complex networks spreading mode invisible patients di

水电站边坡施工期4D安全信息模型研究与应用

鉴于以往边坡施工期安全信息管理及可视化分析方面的研究中还存在工程模型及信息动态属性描述不够、安全信息表达不全面等问题,通过引入4D技术和安全信息模型,提出水电站边坡施工期4D安全信息模型的建立方法和实现过程,重点研究了边坡信息几何载体模型的建立、安全信息的数据库存储与可视化显示以及进度—模型/信息动态映射算法等关键技术,最后应用C#.NET+OpenGL开发出边坡施工期安全信息动态可视化管理系统。

期刊

边坡工程4D技术安全信息模型简单体绘制动态映射可视化slope engineering4D techniquesafety informatio

基于不同相似性度量的RFID指纹定位

针对室内移动机器人定位精度低、可靠性差的问题,研究了不同相似性度量的粒子滤波指纹定位法。根据向量空间相似性度量和K-近邻权值算法(WKNN)提出一种新的无源RFID指纹自定位的方法。在训练阶段,移动机器人在定位区域受控移动,采集参考指纹数据;定位阶段,引入递推贝叶斯滤波的粒子滤波定位算法,通过分析不同相似性度量算法对定位精度的影响,提出了一种新的相似性度量算法HSim建立观测模型;最后,采用重采样

期刊

粒子滤波RFID指纹定位HSim相似性度量重采样算法室内移动机器人particle filterRFID fingerprint positioni

一种用于云存储的可撤销的属性加密方案

由于云存储用户数量大,成分复杂,云存储中数据的安全防护问题成为其发展的一大制约,近年来,基于属性加密技术解决云存储中数据安全存储问题成为研究热点,但传统的属性加密方案存在密文长度相对较大且属性撤销复杂等问题。引入代理重加密技术,针对以上问题提出一种可撤销的密文属性基加密方案,在缩短密文长度的同时实现属性撤销操作,并证明该方案在DBDH假设下CPA是安全的。

期刊

云存储属性基加密撤销代理重加密cloud storage attribute-based encryption revocation prox

基于嵌入式马尔可夫链的网络防火墙性能建模与分析

提出了一种基于嵌入式马尔可夫链的解析排队模型来分析和研究基于一定准则的防火墙在面对正常流量和DoS攻击时的性能。基于这种排队模型,得到了一组关于防火墙特征和性能的指标计算方法,这对防火墙的设计来说具有重要意义。同时还提出了一种易于实现的算法来得到这种马尔可夫链模型的状态概率,对防火墙的状态和性能也作了深入的分析。最后通过实验分析验证了提出的解析模型的有效性。

期刊

网络防火墙性能建模排队论马尔可夫链network firewall performance modeling queueing theory Ma

能量角度联合自适应路由修复新算法

为了最大化网络的生存周期,首先提出了最大角度路由选择算法,然后针对其能量消耗的问题,进一步提出了将节点剩余能量与最大角度相结合的路由修复优化算法。该优化方法通过引入剩余能量,延长了无线传感器网络中节点的生存时间。仿真结果表明,新路由优化算法在一定程度上有效地延长了整个网络的存活时间,不仅使路由协议在一定程度上具有容错性,而且也保证了整个网络的鲁棒性。

期刊

无线传感器网络最少跳数路由理想路由最大角度路由路由修复生命周期WSN minimum hop routing ideal routing m

基于D-S证据理论的测试性综合评估方法

基于Bayes理论的测试性评估方法能充分利用产品研制阶段先验信息,评估结论置信度相比经典方法有了很大提高。针对先验信息不确定性影响Bayes评估结论的问题,提出基于D-S证据理论的测试性综合评估方法。首先建立先验信息标准化模型,将先验信息转换成置信区间形式;然后根据D-S证据理论和Pignistic转换推导先验信息矩值,并解算先验分布超参数;最后基于Bayes定理给出后验分布和评估公式。实例证明该

期刊

D-S证据理论测试性评估Bayes理论Pignistic转换

具有较短公钥的批处理整数上的全同态加密

Coron等人将批处理技术应用在整数上的全同态加密方案,可以在一个密文中同态地处理和加密一个明文向量,提高了原方案的效率,但它的公钥尺寸为Oλ8。为了减小该方案的公钥尺寸

期刊

全同态加密批处理公钥尺寸密文压缩二次形式

突发环境事件等级评估方法研究

为了快速确定不同类型指标下突发环境事件分级问题,从而快速准确地制定突发事件应急预案和调度应急资源,提出一种基于改进模糊综合评价方法的突发环境事件等级评估模型。该模型分别利用熵权法和改进模糊层次分析法求得客观权重与主观权重,并进行权重拟合求得综合权重,构建模糊评价矩阵求得最终评价结果,最后通过案例验证了方法的合理性和有效性。

期刊

突发环境事件模糊综合评价主观权重客观权重environment emergency assessment fuzzy comprehensive ev

基于蚂蚁优化算法的分层强化学习

与本文相关的学术论文