论文部分内容阅读
对Markov决策过程与强化学习进行了研究。针对许多实际问题不仅要求报酬达到最大,同时希望代价(即费用)不要过大的特点,引入约束Markov决策过程,提出一种新的基于约束Markov决策的Q-学习算法。针对煤炭行业生产与安全密切相关的特点,根据具体煤矿工作面采煤机运行控制进行了实验分析,结果证明了方法的有效性。