一类事件驱动马氏决策过程的Q学习

来源 :系统工程与电子技术 | 被引量 : 0次 | 上传用户:xjp_djx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题,通过分析其模型特征,研究了一种简单的增强型学习算法,不必将事件扩充为系统状态,而只对原始状态的值函数进行学习,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题,计算机仿真结果表明,算法优于通常的增强型学习和动态规划方法,验证了算法的有效性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
5月26日全球知名高空作业平台及伸缩臂叉装车制造商JLG(捷尔杰)应邀出席了主题为“全球视野、创新思维、理性超越、引领未来”的2017第四届国际高空作业平台租赁峰会.峰会邀请
高校图书馆在购买图书时经常会征求读者的建议,读者荐购与读者决策采购成了高校图书采购的重要方式,同时也是提高高校图书馆馆藏文献资源建设质量的有效采访模式。文章对此做
本文提出了一种考虑收益和风险偏好的组合证券模糊最优化模型。给出了最优组合的计算方法和有效边界的表达式。最后用释例说明了方法应用。
风电机组齿轮箱油在线水分监测数据分析方法,针对在线测得的风电机齿轮箱中水分的含量,结合统计过程控制方法,分析水含量数据并预测出风电机组齿轮箱油液中水分含量的预警值
分析了雷达测定目标时角误差的特性,对某型雷达实测目标信号进行了定性分析和定量计算,给出了计算公式、成形滤波器和推荐取值范围。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
当下对于公务员的职业压力源问题的研究已引起普遍重视。以我国的现状为基础,结合国内外学者提出的观点,分析并归纳压力产生的几种可能性原因。由于我国公务员职业压力的产生
本文对基于层次总线的PM-SIMD机群网中的数据传输拓扑进行了研究,改进了传统的数据传输通道设计方式,根据缓冲资源从传输资源中分离的原则,建立了两种虚拟通道模型,理论分析和仿真结果均
以实际工程为例,给出地下车站渗水问题如何解决以及如何提高防水施工技术的措施及方案,多种地下车站防水技术实施的保障方法。