论文部分内容阅读
随着工业化的发展,大气污染逐渐成为严重的社会问题。大气污染会导致雾霾、酸雨等现象,人体长期暴露在环境污染中会诱发多种疾病。为保证社会绿色健康可持续发展,污染治理成为近年来政府工作中重要的一环。掌握空气质量的变化情况能够为污染治理提供依据,因此对空气质量预测算法进行进一步研究具有重要的应用价值和现实意义。本文基于空气质量影响因素、数据时序和空间分布特征的分类提出一种数据选择方式,在LSTM模型中添加特征提取机制,开展提高空气质量预测模型泛化能力的算法研究。主要研究内容包含以下几个部分:(1)使用核密度估计、空间自相关方法及随机森林三种方法从空气质量数据分布的时间变化特征、空间变化特征、污染来源分类、排污防治措施、地区经济发展因素等方面对空气质量的数据特征进行分析。在此基础上归纳出五种站点分类方式。(2)对比使用不同分类方式模型的预测效果提出一种数据选择方法PSS(Pearson based Station Selection):首先通过分类获取类似站点为一个集合,根据所需数量使用皮尔逊相关系数评估数据变化相关性更高的站点数据加入模型。该方法能够更好地利用空气质量监测站点及数据的变化特征进行数据选择,从而提高数据输入的有效性。在同一模型下使用PSS的预测结果误差值小于其他方法。(3)构建了一种基于数据及站点时空特征相关性选择数据并添加特征提取机制的空气质量预测模型STF-LSTM(Spatial Temporal Feature based LSTM Model)。在使用PSS站点选择的基础上,对数据使用卷积操作提取小尺度特征,并使用注意力机制对时序特征进行抽取。实验结果证明特征提取与注意力机制的添加增强了预测模型的稳定性,整个预测模型处理输入数据的泛化能力也有所提高。