论文部分内容阅读
气候问题不仅关系着普通人的日常生活,而且影响社会经济的发展。表征气候问题的气象监测数据是研究天气及气候变化问题所需的业务基础。精确且高分辨率质量的气象监测数据能够为气象分析和气象学术方面的研究提供大量且可靠的信息。因此,气象监测数据具有十分重要的研究意义。在各种不可控因素影响下,气象监测数据在存储和传输过程中极易产生数据异常,从而使得气象监测数据集不完整。不可靠的气象监测数据将会阻碍其在后期的使用。因此,如何寻找合理有效的措施来检测和修正可靠气象监测数据中的异常问题,已成为气象研究中的关键所在。气温数据作为气象监测数据中一个重要要素,与气象问题联系紧密,且其在生活中运用广泛。由此,气温数据可作为突破点用于研究异常数据检测和修正问题。基于气象监测数据研究背景,本文系统研究了气温数据的变化特性,探究了其在测量、传输和存储等过程引起异常的原因,检索了气温数据异常值的质量控制方法方面的相关研究成果,以此深入了解相关检测和填补气温数据异常值的有效措施。基于气温数据的特性,本文选取了LSTM(Long Short Term Memory Neural Network)模型作为基础模型进行研究。从气温数据在时间上的连续性和空间位置的相关性两个维度进行了研究,本文根据不同的需求对标准的LSTM模型的拓扑结构进行了改进。针对时间上的连续性,提出了一种新型的带有额外数据输入的双层输入-隐含层LSTM网络模型(Extra Double Input Double Hidden LSTM,EDIDH-LSTM);针对空间位置的相关性,在EDIDH-LSTM模型的基础上,提出了时空叠加双层LSTM模型(Time And Space Superimposed LSTM,TSS-LSTM)。在提出的模型基础上,本文通过相关实验来检测和填补气温数据集中的异常数据。本文的主要工作将概括为以下两个方面:(1)提出了一种带有额外数据输入的双层输入-隐含层LSTM模型结构——EDIDH-LSTM模型,且利用异常值标记法来处理数据中的异常值,用来修正气温时间序列数据集中缺失数据,来保证数据集时间上的连续性。将降水因素作为额外输入,结合经过第一层LSTM隐含层训练的气温数据,进行第二层含有LSTM单元的隐含层训练的模型。通过不同迭代次数及不同优化方法的实验,最终选取合适的迭代次数和优化方法,改进激活函数来建立模型。为了验证模型的有效性,采用不同的数据集进行实验,并和标准LSTM模型、正弦修正模型GM(1,1)进行对比实验。实验结果表明,本文提出的EDIDH-LSTM模型在该数据集上能有效的检测和填补对气温数据的异常值,而且和其他两个模型相比,有着更好的精确度。但是实验中仍然存在不足之处,不合理的缺失值处理算法在长时间的连续缺失数据中无法起到作用的问题,在后文研究中将对该问题进行改进。(2)改进缺失值的处理算法,提出了一种时空叠加双层长短时记忆神经网络模型——TSS-LSTM模型。利用气温数据在空间位置的相关性,针对目标站点的气温时间序列中的异常值,增加了辅助站点的同时期同时刻的气温时间序列数据(可能含有异常值)作为输入,选取合适的迭代次数、优化方法和激活函数来建立模型。为了验证模型的有效性,利用多个不同气象监测站点的气温数据和地理因素数据进行实验,从空间位置相关性和时间序列相似性两个方面,进行对比,同时和EDIDH-LSTM模型进行相互佐证。实验结果表明,该模型的可用性,且在一定程度上显示了气温数据的特性,有助于对气温数据异常值的研究和检测。本文可能的创新点在于以下方面:基于时间序列方面的异常值检测算法研究较多存在于医疗、工业故障、飞机等,气温数据方面研究相对较少,本文在气温数据异常值检测算法中利用时间序列模型的特点作为实验的切入点;针对不同场景来检测气温异常值问题,不仅有单个站点的异常值检测,还由结合多个站点的数据进行异常值检测;本文模型在优化算法、激活函数等方面进行不同对比实验,以更好地优化模型。