基于约束MORKOV的强化学习的研究与应用

来源 :2009国际信息技与应用论坛 | 被引量 : 0次 | 上传用户:cjcjmalei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对Markov决策过程与强化学习进行了研究。针对许多实际问题不仅要求报酬达到最大,同时希望代价(即费用)不要过大的特点,引入约束Markov决策过程,提出一种新的基于约束Markov决策的Q-学习算法。针对煤炭行业生产与安全密切相关的特点,根据具体煤矿工作面采煤机运行控制进行了实验分析,结果证明了方法的有效性。
其他文献
面向企业信息的机器翻译研究一直面临着特定领域标准语料不足,通用训练语料难以满足要求的尴尬局面。在专业训练语料不足的情况下,通过深入研究中文机构地址的构成特点,建立了用
地下害虫是指生中大部分时间在土壤中生活,危害草坪草地下部分(种子、根、茎)或地面附近根茎部的害虫,亦称土壤害虫。在草坪害虫中,地下害虫具有种类多、分布广且危害严重的
描述了用于入侵检测系统性能比较的ROC曲线的绘制方法,阐述了ROC曲线评估方法中常用评估指标的意义,通过实验证实了ROC曲线具有不敏感于先验概率的良好特性,ROC分析技术表明基于
通过建立三维图像测量系统采测量足关节位置感觉,以实现定量地解析足关节机能的不安定性。首先利用数码相机所建立的三维图像测量系统来获取决定足关节姿势的特征点的三维空间
采用Petri网方法规范化描述供应链事件的规则,分析事件间的因果关系。设计了4种基本模式,以满足经常出现在供应链中的事件建模概念。并提出采用广义随机Petri网对供应链事件管
既是教授、学者,同时又是享誉海内外的杰出教育家,梅贻琦这个名字闪闪发光。做过17年清华大学校长,这本身就非常了不起。17年的时光,光阴荏苒,梅贻琦留给世人的,是一座心有净
基于ARM微处理器的嵌入式系统,结合中断处理系统和特定设计的数据结构,用汇编语言和C语言设计了基于中断的数据结构及其算法和存储缓冲循环队列,高性能实现了UART和键盘之类的I/
在OFDM原理的基础上搭建了仿真的基本平台,通过平台分析比较OFDM相较于传统单载波系统的优越性;重点分析了理想同步情况下,循环前缀(CP)和信道估计方法在频率选择性信道下对OFDM
随着计算机技术、网络技术和数据库技术的不断发展,利用Web模式提高工厂的工作效率与工作质量是企业发展的重要环节。利用快速原型法和UML技术,设计实现了一套构架清晰功能完善
人物简介:第16届“中国青年五四奖章”获得者刘珪,2000年12月入伍,现任中国人民解放军75738部队87分队分队长。曾荣获全国“优秀共产党员”、全军“学习成才先进个人”、全军