论文部分内容阅读
在数据分析的应用中,数据质量是一切分析研究的基础,针对电网运行过程中输变电设备基础数据质量不高的问题,首先介绍了电力系统不良数据的产生原因与主要表现形式,并设计了一种通过历史数据训练优化生成的随机森林(一种集成学习算法)模型,可以实现对可疑数据的检测与筛查。通过对不平衡训练样本的处理,在测试算例结果对比中,均衡样本后的随机森林模型比未均衡样本的随机森林在负样本的预测准确率高10%,相比单个决策树模型在正样本的预测准确率也高出9%,这表明了集成学习在计算效率与准确率方面相对其他机器学习分类算法的优势,以及均衡训练样本对模型准确率的提升有明显效果。