论文部分内容阅读
构建基于重构和调度二元增强学习架构的调度系统,借助重构增强学习系统的行为来实现资源配置、重构制造单元的功能,借助调度增强学习系统的行为来为各制造单元安排加工任务,实现优化各产品加工路径和加工顺序的功能。重构和调度增强学习系统通过状态转移、行为选择和报酬获取进行联系。提出结合函数泛化器的自适应步长增强学习算法的学习机制和学习步长调整机制,通过实验分析了函数泛化器的性能,验证了该算法解决一类重入型的可重构制造车间调度问题的有效性。