论文部分内容阅读
随着机器学习近些年来飞速发展,应用机器学习解决领域数据分析、预测等问题成为一个新的研究热点。近年来,随着物联网、移动互联网等高效信息采集、传输技术的发展,环境数据越来越趋向多源化、高维度、序列化等特征,同时也出现了大量物理特征不明显的环境数据。传统的统计建模与预测方法很难充分利用这些环境数据。本文面向环境数据预测开展机器学习算法研究,针对环境数据的特点开展了以下研究工作:(1)基于DFSA的物理特征不明显环境数据预测方法:特征选择是神经网络(Back Propagation,BP)、支持向量机(Support Vector Machine,SVM)、决策树等传统机器学习算法的关键。通过特征不明显的数据预测环境参数是环境数据预测中常见的问题,这成为了特征选择的难题。为了解决上述问题,本文提出了一种基于离散度的特征选择算法(Divergence-based Feature Selection Algorithm,DFSA),并设计了基于DFSA的机器学习框架。以通过遥感图像数据预测土壤含水率为例,将DFSA与其他特征选择算法进行了对比验证。利用BP、SVM、决策树等分类器,基于特征选择算法输出的特征数据集对北京地区含水率分布进行了预测。结果表明,DFSA输出的特征数据集预测精度能达到70%以上,高于其他特征选择算法输出的特征数据集。(2)基于插值补全和LSTM的序列环境数据预测方法:采样率不一致和数据缺失导致样本数量不平衡是利用多维数据预测环境参数的常见问题。针对上述问题,本文提出了基于插值补全和LSTM的序列环境数据预测方法,即利用插值方法对数据进行补全,再通过归一化和正则化对数据进行预处理,最后利用LSTM进行预测。以北京市PM2.5浓度预测为例,基于气象数据和PM2.5数据构建了采样频率不一致的多维数据集,进行了算法验证。利用等值法、线性插值法、牛顿插值法和拉格朗日插值法分别进行时间维度的频率匹配和空间维度上的数据补充。结果表明,上述四种插值补全方法都能够明显提高预测精度,其中拉格朗日插值后的预测精度能够高达82.73%,比没有插值的预测方法高20%以上。(3)基于ConvLSTM-ELM的多维序列数据预测方法:多维序列环境数据,利用CNN、LSTM分别能够解决特征自动提取与时间序列数据利用问题。本文在CNN、LSTM的基础上进行了算法改进,提出了一种ConvLSTM-ELM深度学习网络结构,本网络结构中ELM替代传统网络中的softmax分类器,解决softmax容易陷入局部最优解问题,用于输出最后的结果。为了验证上述算法在典型多维序列环境数据预测中的有效性,设计并实现了基于多个廉价气体传感器整列的甲醛浓度预测实验平台,采集了大量的样本数据。结果表明,CONVLSTM-ELM的预测精度优于传统的CNN+LSTM方法和LSTM方法。