论文部分内容阅读
在相当长的一段时间内,我国以煤为主的能源结构不变,煤炭占总能源比例及火力发电比例将很难低于50%。因此,发电企业面对目前严格的火电厂排放标准,必须采取一切措施实现发电过程的节能减排。目前,电力发电企业在锅炉、汽机等设备的运行过程中积累了丰富的历史数据,本文从挖掘电厂的节能潜力出发,借助国电大同某电厂的SIS系统中的历史数据,利用Spark分布式大数据计算平台及相关技术对电厂相关指标进行了建模研究,主要工作内容如下:(1)对电厂现阶段的发展现状及所面临的问题进行了调查研究,并从氮氧化物的建模出发对电厂某段时间内的样本数据进行建模预测,并得到较好的预测效果。(2)建立了大数据/云计算的基础存储及计算平台Hadoop,Spark系统等。对Spark平台上的核心RDD进行了研究学习,并利用随机森林、梯度提升回归树及普通决策树完成了对氮氧化物的预测建模,将任务提交到yarn资源管理系统进行分布式计算,并将结果保存到HDFS,从不同角度比较了随机森林及梯度提升回归树方法在氮氧化物建模中的实际效果,对比之后发现随机森林模型更适合用于该污染物的建模。(3)分析比较了不同计算框架的优劣,选取了适合本研究的硬件及软件系统;同时对比了不同存储系统及其优缺点,选定了本文所需要的存储系统;收集整理了可在Spark平台上可并行化的机器学习算法库,并进行了相关算法的测试。(4)对电厂PI实时数据库中的数据进行了采集、清洗、对齐及相关预处理,保证了数据安全的同时保证了数据的质量。使预处理后的数据转化为Spark机器学习库Mllib所需要的格式。(5)对建模结果进行了分析,抽取出树模型中根节点附近的变量,发掘出这些测点与污染物之间的关系,从全厂出发分析了电厂的主要经济指标,并对不同负荷下电厂主要运行参数进行了挖掘。试验结果表明,基于Spark平台的随机森林算法可以很好的对氮氧化物进行建模,模型的参数调整好之后,其预测结果较好,并且随机森林模型消耗的时间在可接受范围内。同时,将随机森林和梯度提升树算法用于氮氧化物的k步预测,并做相应试验,从结果可以看出,对于多步预测问题,随机森林模型同样比梯度提升树有一定的优势,可很好的学习出数据中的特征,并对氮氧化物进行预测建模。最后,对电厂其它环节及设备的节能及相关建模分析方案进行了设想及展望,对该研究未来的工作提出了一定的意见及设想。