论文部分内容阅读
随着社会对雾霾天气关注程度的上升,雾霾预测势必成为一个新的研究领域,但目前针对雾霾天气发生情况尚没有成形完整的理论模型。现有的针对雾霾相似性天气霾以及PM2.5预报主要利用神经网络建模,但是由于雾霾成因复杂度较高且数据不平衡的特点,在利用神经网络建立雾霾预报模型时易陷入维数灾害,从而降低预报准确率。本文针对上述雾霾样本数据特点,提出了一种基于二分法自动搜寻偏向参数的DAP聚类与支持向量数据描述(SVDD)相结合的建模方法。传统的AP聚类虽然可以形成若干个凸型数据簇,但是由于偏向参数选择的随机性使得聚类效果不稳定,无法确定最优解从而导致最终预测模型分类精度的不稳定。针对这个问题,本文引入二分法,在全局范围内搜寻偏向参数并通过Silhouette指标确定最优解,进而得到最优聚类效果。由于样本数据不平衡导致传统的分类模型很难精准进行预测分类,因此本文选用单分类模型SVDD算法作为下游处理器,在各个数据簇上分别建模,最终统一打包封装形成DAP-SVDD预测模型。具体工作如下:(1)分析了研究背景、目的意义及研究现状近些年来雾霾天气越来越受到社会的关注,对人类的日常生活产生了较大的负面影响,因此若能建立一套雾霾预测系统,精准的预测出雾霾发生情况,则可以方便市民提前采取预防措施减少不必要的危害。但是目前国内尚没有成型的雾霾预测模型可以应用到现实生活中以方便人们提前采取措施预防雾霾可能造成的危害。基于雾霾样本数据的不平衡性,传统的二分类SVM机器学习模型很难精准的对雾霾发生情况其进行预测,于是本文系统的了解了常用于故障点诊断的SVDD算法以及AP聚类算法之后,发现SVDD算法在小样本不平衡高维数据集上的分类预测具有较高的准确率,而AP聚类则可以自动生成若干小样本凸型数据集,因此本文将结合二者进行结合与改进,充分发挥二者的优点。(2)提出了基于二分法寻找偏向参数的DAP-SVDD雾霾预测模型由于样本数据较大且分布特征不确定,在应用SVDD预测分类模型之前,需要利用AP聚类算法对其进行聚类且转化成若干个凸型数据簇,以提高预测精准度。而偏向参数的设定直接影响聚类效果好坏,传统的偏向参数统一选取各样本相似度均值的一半作为确定值,但是由于每个样本数据集特点不同,导致统一选取固定值会造成聚类实现效果的不确定性,无法判别其是否为最佳聚类效果。针对这个问题,本文提出了AP聚类的改进算法DAP算法,即利用二分法在参数选取范围内依次代入计算,利用评价指标评判出最优参数,之后利用SVDD算法作为下游处理器建立预测模型。(3)设计并实现了基于DAP-SVDD的长春市雾霾预测模型首先将搜集到的长春地区空气质量数据以及大气污染数据分为测试集和训练集,再利用SPSS数据分析软件以及MATLAB仿真软件对设计好的DAP-SVDD模型进行训练建立预测判别建模,之后再利用测试集对模型进行测试得到模型预测准确率。(4)雾霾预测结果分析、对比和仿真在对建立好的DAP-SVDD预测模型进行仿真并得到预测准确率后,再将样本数据分别在采用传统偏向参数的AP-SVDD模型、未进行数据上游处理的SVDD模型、以及传统的二分类C-SVM模型进行建模测试,将其测试准确率结果进行比较分析,结果表明改进后的模型比育有传统模型在训练时间、预报准确率上都有很大提高。