一种新的连续动作集学习自动机

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:suibiannicheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,并且学习的精度取决于离散化的粒度。本文提出一种新的连续动作集学习自动机(Continuous action-set learning automaton,CALA),其动作集为一个可变区间,同时按照均匀分布方式选择输出动作。学习算法利用来自环境的二值反馈信号对动作
其他文献
系统地报道了包头地区毛茛科野生观赏植物资源,并对其观赏价值做了评估,提出了开发利用的建议.
计算机的广泛应用,为高校实行文档一体化管理提供了技术支持,电子文件的出现要求档案工作向文件管理延伸,从而在文件生成之日起就得到质量控制,结合长期从事档案管理与文件管
松辽盆地梨树断陷营城组是一套以碎屑岩沉积为主的地层,其主要岩性为正常碎屑沉积岩,火山碎屑沉积岩居次。砂岩在所有岩性中所占比重最大,主要为长石岩屑砂岩和岩屑长石砂岩
初步讨论了可离可约多项式与可离不可约多项式的Galois群之间的关系,并讨论了其稳定子群的性质,给出了G(f)为本原群的条件。
针对深空通信中高信道编码增益的需求,设计了一种新颖的基于按边增长(Progressive edge-growth,PEG)算法的广义低密度奇偶校验(Generalized LDPC,GLDPC)码。基于稀疏矩阵的二分图
城市用水系统与城市居民生活用水、工农业发展和节约用水技术等诸多因素息息相关。因此它是一个多因素、多层次的复杂系统。系统内既有信息部分明确的,又有部分不明确的,因而是
国家新闻出版总署发布的《全国报纸出版业“十一五”发展纲要》,在深刻总结了当代中外报业发展经验的基础上,第一次正式的明确提出了“数字报业”的理念,要求全国报业要在以往推