论文部分内容阅读
随着工业经济和科学技术的快速发展,工业在生产过程中开始逐渐收集大量的设备数据(传感器、执行器等),预测性维护称为了工业4.0的标志性“杀手级”应用。针对工业系统的复杂度和集成度越来越高,基于数据驱动的机器学习模型可以通过对工业设备运行状态的监控,挖掘和发现工业设备在运作时的规律,有利于通过数据对发生故障的设备进行诊断,也可以对故障进行预测,为大型工业节约成本和提高生产效率。本文面向工业场景中数据的非均衡问题,重点对基于非均衡学习的故障诊断模型进行研究。首先,针对真实工业应用案例中工业故障的非均衡数据学习问题,提出一种Easy-SMT集成模型。该模型结合基于SMOTE(Synthetic Majority Oversampling TEchnique)的数据过采样策略与基于EasyEnsemble的降采样集成模型,缓解欠采样造成的潜在有用信息缺失问题,克服非均衡数据样本对二分类或多分类带来的挑战,并应用到风机叶片结冰预测和工业厂房故障分类场景中。其次,为进一步完善基于过采样的非均衡工业故障诊断模型,克服目前大部分过采样算法由于忽略样本价值的差异性所导致合成样本的无效性或噪音性问题,本论文提出一种基于少数类重要性权重和EM缺失值补全的过采样模型EWMOTE(EM-based Weighted Minority Oversampling Technique)。该模型从各个少数类与多数类的分布关系,定义少数类样本的重要性权重,按照重要性权重选择少数类样本作为基样本,通过对特征诱导缺失再补全的思想来完成新样本的合成。这种方法旨在剔除噪声样本和孤立样本的干扰,并选择质量较高、有代表性的样本作为基样本,最后的合成算法通过考虑少数类的全局分布而不是SMOTE算法这种局部分布来进一步避免无效样本(重叠样本或噪音样本)的合成。最后将其应用到风机叶片结冰预测和工业厂房故障分类场景中。实验结论表明:Easy-SMT集成算法能够有效地识别风机叶片的结冰故障和工业厂房的故障,并在参加工业大数据竞赛中获得三等奖。在此基础上,我们提出的过采样算法EWMOTE可以合成有效的少数类样本,并使得故障检测与故障的性能得到进一步的提升。