基于生成对抗网络的最大熵逆强化学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:CT19850329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求
其他文献
近年来,全国开展了禁赌专项活动,司法机关依法严厉打击赌博犯罪活动,取得了显著的成绩。随着禁赌形势的发展,出现了一些新情况:赌博方式不断翻新,赌注渐渐加码,队伍持续扩大,
在"中国特色社会主义与全面小康决胜阶段的战略决策"学术研讨会上,与会专家学者围绕中国发展新理论、决胜全面小康、加强党的自身建设等方面的问题提出了许多新的观点,深化了
为了更深一步提高插电式混合动力汽车(PHEV)适应复杂行驶环境的能力,根据其工作特点和不同驾驶情况的性能要求,设计开发出一款采用启动/发电机、两档纯电驱动模式的新型插电
目的:考察静脉用药调配中心(PIVAS)洁净区域的感染及其控制管理方法和要求,保障静脉输液的调配安全。方法:从环境、人员管理、规范操作及物流四个方面进行感控管理。结果:自2
赌博违法案件包括两种类型:一类是"以营利为目的,为赌博提供条件"的行为,另一类是"参与赌博赌资较大"的行为。认定"以营利为目的"及"赌资较大"应从主观上是否"以营利为目的"
《初中英语交际教学法》实验是福州市教委中教科、福州市教科所、福州教育学院共管的教改实验项目,从1992年9月开始在福州市十三所中学29个班实验,为期三年,95年6月实验已全部完
对民政业务数据的特征进行分析,发现民政业务数据对传输安全要求较高。在分析了常用解决方案优缺点的基础上,提出基于SSL VPN民政数据安全加固的整体设计方案。介绍SSL VPN、
随着科技的进步,作为传统产业的服装行业也逐渐关注高科技成果的应用。我国为了保证高科技服装的研发进程,从资金、制度、管理上做了很多尝试。这些尝试在有些方面收效显著,
为了有效扩大水下高压水射流清洗喷嘴的有效靶距,提出了一种结合水下注气系统的高压水射流清洗技术;设计了一套结合水下注气系统的高压水射流水下模拟实验装置,该装置通过水
一、充分利用平行线。或巧作平行线.把比例问题化归为应用平行线分线段成比例的基本图形 平行线是相似三角形中活跃的“元素”.而平行线分线段成比例定理及其推论是证明线段成