【摘 要】
:
针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法。该方法综合神经网
【机 构】
:
华中科技大学数字制造装备与技术国家重点实验室,聊城大学计算机学院
【基金项目】
:
国家自然科学基金面上资助项目(51875429),国家自然科学基金国际(地区)合作与交流资助项目(51861165202)
论文部分内容阅读
针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法。该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程。通过将调度问题转化为多阶段决策问题,用深度神经网络模型拟合状态值函数,把制造系统加工状态特征数据输入模型,采用时序差分法训练模型,把启发式算法或分配规则作为调度决策候选行为,结合强化学习在线评价—执行机制,从而为每次调度决策选
其他文献
在托卡马克等离子体中,电阻壁模是非常重要的磁流体不稳定性,特征时间在毫秒量级.对长时间稳态运行下的先进托卡马克,电阻壁模限制着聚变装置的运行参数空间(放电时间和比压)
全球范围内的疫情大爆发,世界经济遭受重创。基于国际国内市场经济大环境,我国提出主要以国内大循环来拉动内需,重振经济发展步伐,努力迈向经济高质量发展阶段。而扩大中长期
针对三维不规则排样构造算法的瓶颈问题提出了两方面改进:首先,将不规则三维零件进行矢量图与像素图的混合表达,在算法的初始阶段,零件采用矢量方式表达;在寻找最优排样姿态
基于塑料闪烁体转换和光学条纹相机的方法建立了一套用于Z箍缩实验中的软X射线条纹图像诊断系统,解决了以往实验中使用的X射线条纹相机易被电磁环境干扰以及相机电极部件易被实验产生的高速粒子损伤的问题.诊断系统的光谱响应范围主要集中在0.2—10 keV,系统的空间分辨率经过理论评估小于120μm,通过标定闪烁体对X射线的时间响应特性给出了系统的时间分辨率约为1 ns.诊断系统拍摄到了铝丝阵内爆等离子体的
随着老龄化社会问题日益突出,养老压力越来越大,我国全面步入老年化社会。而互联网5G时代的来临,为智慧养老服务注入了新的活力,推动养老服务高质量发展,将会为老年人创造一
一维非共轭烷烃链虽不具富电子或少电子特征,但常存在于单分子器件或多肽、蛋白质等生物分子中,对电子传输产生重要影响.为理解这类物质的电子输运特征,本研究设计了一维线性
为了仅从非平稳振动响应信号中在线识别线性慢时变弱阻尼结构的时变和瞬态的模态参数,提出一种基于滑动窗变步长等变自适应源分离(MWVEASI)的工作模态参数识别方法。该方法采
采用脉冲激光沉积技术制备出无氢钨掺杂非晶态类金刚石膜.膜中的钨含量与靶材中的钨含量保持稳定的线性关系,显示了脉冲激光沉积在难熔金属掺杂技术方面的亮点.由于碳-钨结构
由于MnBi2Te4电子结构具有对晶格常数的改变相当敏感的特性,本文采用基于密度泛函理论的第一性原理方法对MnBi2Te4反铁磁块体的电子结构施加等体积应变调控.研究发现体系能带