论文部分内容阅读
智能电表集成了电能计量、数据采集、远程费控等功能模块,具有操作简便、功能多样的优点,但同时由于其功能日益丰富、结构日益复杂导致其故障类型变得多样化。智能电表故障类型的准确判断,有助于指导运维人员制定合理的维护措施,减少故障维护时间,从而提高用电采集系统的稳定性并降低运维成本。基于机器学习的分类方法是解决智能电表故障多分类问题的一种有效途径。而现有智能电表故障样本数据呈现出不平衡的特点,实质是一个类不平衡的多分类问题。解决类不平衡的多分类问题是机器学习研究领域的热点和难点,深入研究该问题并提出相应的解决方案,不仅可以提高智能电表的故障分类准确率,而且可以对诸如情感分类、疾病分类等很多具有相似数据分布特点的应用领域问题的解决提供可行的思路,具有重要的理论意义和实际应用价值。据此,本文研究了基于机器学习的智能电表故障多分类方法,论文的主要工作如下:首先,研究了基于一对多框架的多分类方法。根据现有电表故障数据的特点,通过数据清洗与特征工程技术对原始数据进行了分析与处理。在对目标故障数据预处理的基础上,针对各故障类型样本数目分布不均的问题,结合二值化技术与不平衡学习方法,提出基于一对多框架的差分分区采样集成分类算法。该算法将原始多类数据转化为多个二类数据集后,使用每个二类训练数据集中多数类数目与少数类数目作为采样区间上下限,模拟等差数列构造过程以设定采样数目。为减少过拟合和多数类样本信息损失,在每次迭代过程中,根据样本分布特点提出 Safe-Random Undersampling(SRU)与 BR-SMOTE 采样方法对正负样本进行数目平衡后建立分类模型。使用公开数据集与实际电表故障数据集进行实验研究,实验结果表明所提方法可有效解决多类不平衡数据分类问题。然后,研究了基于多分类器系统的分类方法。针对不同子模型的不同特点,提出一种基于信任分数的动态融合集成分类算法。该算法在保证全局准确率的基础上提高整体分类模型的多样性,在选择阶段根据基于个体能力的F-score1对分类器池中的模型打分排序后再根据基于群体能力的标准Double fault(DF)进行再次挑选;在结果聚合阶段,根据测试样本所在局部区域内各类样本的分布情况以动态地过滤可信度低的预测结果,减少性能较差的分类模型对测试样本最终预测结果的干扰。以公开数据集与实际电表故障数据集为对象进行实验分析,实验结果表明所提方法可有效提高多分类器系统分类效果。最后,研究了结合不平衡学习方法与多分类器系统构建技术的多分类模型。为进一步提高故障分类准确率,提出基于一对多框架的动态平衡集成多分类模型。该模型结合二值化技术,使用差分分区采样方法对各类样本进行平衡以得到多份样本数目均衡的训练集。根据这些平衡样本集建立多个分类模型后,针对每个二类问题,利用基于信任分数的动态选择融合方法构建多分类器系统对测试样本进行在线预测。使用公开数据集与电表故障数据集进行实验分析,实验结果表明所提方法可有效提高整体模型的分类准确率。