【摘 要】
:
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优
【机 构】
:
苏州大学计算机科学与技术学院,苏州大学系统生物学研究中心,符号计算与知识工程教育部重点实验室(吉林大学)
论文部分内容阅读
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近
其他文献
蛋白质互作用(protein-protein interaction,PPI)网络是广泛存在的一类复杂生物网络,其网络拓扑特征与功能模块分析密切相关.图聚类是对复杂网络进行分析和处理的一种重要计算
日前,首台国产化乙烯装置20万t级混炼挤压造粒机组供货合同终于花落大连橡胶塑料机械股份有限公司,并正式开工生产,2009年3月完工。乙烯装置是我国乙烯工业的国家重大项目,其关键
As a respond to Larry Cuban’s article about why has the influence of MI been highest on educators’ beliefs and language and least on classrooms practices? Thi
The distinctive form of language emerged from the Internet is gaining more and more attention these days. In fact, different theories and methodologies can supp
Based on learning motivation theory and metacognitive theory, the present study reports questionnaire surveys on correlation between motivation orientations and
2010年,Shao等人首次引入带关键字搜索的代理重加密(proxy re-encryption with keyword search,PRES)的概念,而且构造出1个在随机预言模型下可证明安全的双向PRES方案,同时该作
Globalization, informatization and digitalization have been the prevailing trends in the world with the advent of 21 st century. Under these circumstances, peop
山西煤化所与河南永城煤电集团公司合作开展的合成气经甲醇/二甲醚制高品质汽油新技术研发完成1000h模试运行。合成气经甲醇/二甲醚制高品质汽油新技术属于非石油路线制取石油
近年来,随着无公害蔬菜生产的发展.如何在栽培过程中减少病虫害、少用药、低农残受到人们的普遍关注.无公害蔬菜病虫害防治应坚持“以农业措施防治为基础.优先采用生物防治,协调利
This essay analyses Paul Green’s use of music in his first long play In Abraham’s Bosom and finds that music,especially the folk songs not only created authen