针对不可微多阶段算法的环境升级式强化学习方法

来源 :重庆邮电大学学报(自然科学版) | 被引量 : 1次 | 上传用户:xphan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多阶段算法的研究目前已取得很大进展,但仍存在2个重要问题。在推理阶段,信息不能从下游反馈到上游。在训练阶段,当整个模型涉及不可微函数时无法进行端到端的训练,因此不同阶段不能联合优化。提出一种新的环境升级式强化学习方法来解决反馈和联合优化问题,该方法的框架结构是通过一个强化学习智能体将下游阶段与上游阶段重新连接起来,利用优化上游阶段的输出来训练智能体,以提高最终性能,同时根据智能体的策略对下游阶段(环境)进行升级,实现智能体策略和环境的联合优化。针对智能体和环境的不同训练需求,还提出了一种基于该框架的
其他文献
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网
激光在自由空间进行传输时,受大气分子和气溶胶粒子的影响,发生的后向散射效应会降低激光传输系统的可靠性,研究激光在大气中传输的后向散射效应,可以有效提高激光通信系统的安全性和保密性。利用蒙特卡罗(Monte Carlo)方法对大气后向散射信道特性进行分析,建立了激光在大气中传输的后向散射理论模型,为了提高蒙特卡罗算法的计算效率,在原模型的基础上提出了一种改进的快速蒙特卡罗方法,分析了能见度、非对称因
目前面向分类的差分隐私保护算法中,大部分都是基于决策树或者随机森林等树模型。若数据集中同时存在连续数据和离散数据时,算法往往会选择调用2次指数机制,并且进行隐私预算分配时往往选择平均分配。这都使得隐私预算过小、噪声过大、时间成本增加以及分类准确性降低。如何在保证数据隐私的同时尽可能地保证数据可用性,并提高算法性能,成为目前差分隐私保护技术研究的重点。提出了面向决策树和随机森林的差分隐私保护数据挖掘
事件抽取是自然语言处理领域的重要研究方向。传统的事件类型抽取系统采用分类方式,无法解决跨句子的事件角色和事件类型匹配问题。为了解决该问题,提出一种基于序列标注的事件联合抽取模型,结合卷积神经网络(convolutional neural networks, CNN)与长短期记忆网络(long short-term memory, LSTM)提取全局特征和局部特征;并在浅层LSTM层共享参数实现联合
习近平总书记在陕西视察期间,作出了陕西正处在追赶超越阶段的重要论断。贯彻落实习近平总书记的这一要求,迫切需要各级进一步强化担当意识,牢牢把发展抓在手上,锐意改革创新,全方
报纸
目的:本研究在前期已成功制备青霉素导致小鼠上呼吸道菌群失调模型的基础上,进一步加用环磷酰胺制备了呼吸道局部黏膜生物屏障受损的小鼠模型,以期通过实验初步证明中药经典方剂
目的总结白塞氏病所致主动脉瓣关闭不全的外科疗效,探讨相关手术方式.方法回顾性分析1997年4月~2004年5月在我院收治的白塞氏病所致主动脉瓣关闭不全的病例8例,其中外院术后再
油用牡丹是我国的原生树种,国家已将油用牡丹纳入木本油料体系。油用牡丹作为一种优良的木本油料作物,可以缓和我国食用油市场的严峻形势,对保障我国粮油安全起到积极作用。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:评价小牛脾提取物注射液辅助紫杉醇(PTX)+替加氟(FT-207)+亚叶酸钙(LV)治疗晚期胃癌的疗效。方法:采用信封法将43例晚期胃癌患者随机分为2组,治疗组20例采用小牛脾提取