分布式Q学习多目标函数优化策略

来源 :北京化工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zhouqiuhe1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将分布式Q学习算法与Pareto排序法相结合,提出了一种利用强化学习算法解决多目标优化问题的策略。该策略充分利用Q学习语句式的奖赏机制来描述问题的多重目标函数,并结合一般的Pareto排序法,在有限的迭代过程后输出可以充分接近于Pareto前沿的非支配解集。与其他智能搜索算法相比,该策略具有结构简单、无需先验知识、参数设置少的特点。测试函数优化问题验证了算法的有效性,为智能算法解决多目标优化问题提供了一种新思路。
其他文献
研究了带人工黏性的非理想流体动力学方程组的周期边值问题,给出了此类流体方程组全局解的存在性,通过能量估计方法,证明了该问题的全局解渐近收敛到定常问题的解。
基于生物质精炼与制浆相结合的构想,采用羟基自由基活性氧处理机械草浆,分离半纤维素和木质素,探讨了温度(T)、反应时间(t)、H2O2浓度质量分数(w)和固液比(r)等因素对半纤维素、木质素提
海绵铁经酸浸活化处理或外加镍盐溶液活化处理,可以显著提高其降解水中三氯乙酸(TCAA)的反应速率。实验结果表明,海绵铁降解TCAA反应属于一级反应,酸浸活化和镍盐活化处理都没
运用中心流形定理和分岔理论讨论了基于Belousov-Zhabotinskii反应体系的被改进的Oregonator模型系统的非线性动态,包括随参数变化时平衡点的类型及稳定性变化。从理论上严格
针对Markowitz的均值-方差模型的缺陷,用信息熵代替方差度量风险,用反映资金的增值速度的增值熵代替均值,提出了一种新型投资组合模型——最小信息熵-最大增值熵模型,并通过
三甲基氯硅烷与双端活性锂引发剂反应,制得了一种含硅基团有机锂引发剂,用该引发剂引发丁二烯和苯乙烯聚合,用四氯化锡偶联,得到端基为含硅基团的星型丁苯橡胶,并对上述合成反应工
通过对海藻酸钠与其他胶体间相互作用的研究,将海藻酸钠-明胶作为成胶剂应用在水性仿石涂料中。探讨了胶体间的协同作用,共混胶体的配比以及不同浓度交联剂与胶体的凝胶反应
从滑模变结构控制的机理出发,设计了具有理想动态特性和较强鲁棒性的滑模控制器。该方法使用了Ackermann公式来设计滑模控制,从而可以使滑模控制的不连续超平面以简单的方式表
以氯化锌和氢氧化钠为反应物,中空纤维膜为分散介质,采用双膜分散法制备氧化锌颗粒。研究了两膜组件间距、分散相流速及表面活性剂对颗粒尺寸和形貌的影响。所得产物的SEM和
以聚偏氟乙烯(PVDF)为基材,分别选用N,N-二甲基乙酰胺(DMAc)、苯丙酮为溶剂和稀释剂,通过将热致相分离(TIPS)和非溶剂致相分离(NIPS)相混合的方法制备了PVDF膜。研究结果表明,随稀释