基于强化学习的参数化电路优化算法

来源 :清华大学 | 被引量 : 0次 | 上传用户:dfhdgfhdgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实中经常会遇到需要解决一系列不同参数下的优化问题,例如目前的电路设计中的参数优化问题。电路参数优化是一项非常耗费精力的工作,对设计者的经验要求较高。虽然现已经有许多优化算法,例如粒子群优化和差分进化算法,但是都需要进行非常广的搜索和多次迭代才能找到最优解,非常费时。另外,由于许多经典的电路拓扑是不变的,只是电路中的参数以及优化目标有所不同,那么如果能线下训练一个性能优异的优化器,它能在特定拓扑的电路参数优化问题上表现良好,并且能够在未来的不同设计任务、目标下进行重用,是非常有意义的。由于优化算法的过程与强化学习中的任务有非常高的相似性,所以提出了基于强化学习的参数化优化算法。强化学习中有策略函数和动作-价值函数的概念。强化学习的目标是在马尔可夫决策过程的模型下,通过评估累计回报来学习到最优策略。而这里的最优策略即可作为训练好的优化器,能够根据当前的状态信息作出动作以得到未来的最高回报,这一任务与优化问题中知道优化变量的信息然后寻找目标函数的最优值这一任务一致。通过初始化不同的参数生成多个不同的函数作为元训练集,训练一个具有一定泛化能力的优化器模型,使得它在新的参数下的优化问题下也能迅速、鲁棒地得到最优解。在后面一些数学例子和电路优化的例子中显示强化学习的方法取得了比较好的效果。本文的创新点有:·引入目前的强化学习算法来学习如何对问题进行优化;·固定电路拓扑,将电路设计的需求和目标转化为适合强化学习中的任务;·提出参数化优化,利用强化学习中的泛化性能,通过在某些问题下学习之后能够解决不同参数下的新任务。
其他文献
伴随着我国工业化程度的加深和城镇化水平的不断提高,灰霾污染持续严重。如何联合各排放主体,实现灰霾污染的协同治理,是我国现阶段环境治理和生态文明建设中亟待解决的重要问题。本文在述评现有有关灰霾等大气污染物排放权分配研究的基础上,以2016年我国各省份的灰霾排放情况作为研究对象,构建兼顾效率与公平的多目标导向的DEA模型,评估了我国各省份的灰霾排放绩效,并采用信息熵法,分别进行了灰霾排放权的省际分配,
随着互联网技术的不断发展,许多传统行业逐渐从线下转移到线上,在线广告作为互联网的重要组成部分,越来越多地出现在人们的视野中。如何通过给定的用户行为数据,既找到满足用
氮化镓(GaN)作为一种宽禁带半导体材料,因其优异的光电性能和稳定性,十分适合制备光电子器件和微波射频器件,在照明显示、5G通信、无人驾驶、国防工业等领域有广阔的应用前景
智能体是指在复杂动态环境中自治地感知环境信息,自主采取行动,并完成一系列预先设定的目标或任务的个体。多个智能体组成的系统被称为多智能体系统。与传统的控制系统相比,
随着新型城镇化理论在党的十八届三中全会的提出,各地纷纷结合实际打造特色小镇工程。特色小镇凭借其小范围大集聚、重特色重旅游、环境美生态优等特点在促进供给侧结构性改
医疗保险基金是根据国家的有关法律、法规和政策的规定向用人单位和职工个人收缴的,以及通过其他合法方式形成的用于保障参保人员医疗保障的专项基金。医疗保险基金是社会保
在互联网营销的线上广告应用中,广告点击率预估能够分析广告商业数据中的用户信息、广告商家、检索品类和上下文内容等信息,精准的预测结果可以合理地为互联网公司调整广告投
上世纪中期,引文数据库逐渐开放,文献计量学的研究重点逐渐由传统的题录分析转变为引文分析,引文分析的研究重点在于引文,也就是对文献的引用联系和引用规律进行分析。近些年
近年来,各种在线社交网络媒体出现在人们生活中,产生了海量的网络结构数据,大规模的网络结构数据使传统网络表示方法遇到了瓶颈。随着深度学习的发展和受自然语言处理领域词
DUF647(Domain of unknown function 647)蛋白家族是真核生物(包括动物、植物和一些真菌)中广泛存在且高度保守的一个蛋白家族。在拟南芥中发现了6个DUF647蛋白家族成员。由