论文部分内容阅读
近几十年来,极端天气以及沙尘暴等自然灾害在我国的西部地区甘肃、新疆、宁夏等地频繁发生,严重危害影响到当地的生态环境、社会经济和人民的生活。我们需要对这些气象数据进行分析和深入研究,比如沙尘暴气象数据的分类问题,从而为政府或者农业灾害预警提供正确的决策。分类是数据挖掘与机器学习的一个重要研究部分,传统的分类算法一般假设样本分布是均衡状态,但是在实际生活中存在大量不均衡数据,给研究带来了一定的挑战。考虑到沙尘暴气象数据存在数据分布不均衡的问题,论文实质上是对不均衡数据二分类问题的研究。不均衡数据分类在许多领域中有着重要的应用,如信用卡欺诈、医疗健康预测、异常检测等。对于不均衡数据分类,少数类的错分代价相对较大,比如在气象预测上,人们更加关注沙尘暴、暴雨、霜冻等极端天气的预测精度。传统的分类方法旨在最大化整体分类准确性,极大地限制了分类技术在实际问题中的应用。因此本文的主要目的就是在不均衡公共数据集以及气象数据集上,研究训练出一个准确率高且鲁棒性好的模型,使之能够更好地进行沙尘暴二分类问题。本文研究了不均衡数据分类问题的背景、意义以及现阶段国内外研究现状,并对不均衡数据分类的相关理论进行了分析和探讨,其中一种常见的是利用采样技术(过采样、欠采样、SMOTE以及相应的改进算法)将数据均衡化,另一种算法层面是对传统分类算法做相应的调整,研究主要从代价敏感、集成算法、阈值移动等方面展开。最后研究了F-measure、Kappa、AUC、G-mean等不均衡数据分类的相关评价指标。针对SMOTE过采样算法容易产生模糊边界的问题,本文首先从数据层面提出基于混合采样与Relief F特征选择的BSL-FSRF算法。该算法首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样本进行SMOTE插值,再利用Tomek link进行数据清洗,使数据集基本达到均衡的同时减少噪声样本的数量;其次引入“假设间隔”思想对各个特征维度进行度量,设定合适的阈值,将与类别相关性不高的特征移除,对数据降维;最后以随机森林作为分类器,用改进的网格搜索(Gridsearch)算法进行参数寻优,节省了运行时间。在公共数据集上对BSL-FSRF算法进行实验验证,结果表明该算法在少数类样本的分类准确率和分类器的整体性能上有明显改善。其次从算法层面结合代价敏感学习思想与核主成分分析(Kernel principal component analysis,KPCA)提出一种代价敏感的Stacking集成算法KPCA-Stacking。代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,该算法首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维,其次将KNN、LDA、SVM、RF按照贝叶斯风险最小化原理转化为代价敏感算法作为Stacking集成学习框架的初级学习器,逻辑回归作为元学习器,Stacking两层架构集成且KPCA算法能有效提取数据非线性特征,实验表明代价敏感的KPCA-Stacking算法取得较优的分类结果。最后在甘肃部分地区沙尘暴不均衡数据上,结合代价敏感的KPCA-Stacking算法构建了甘肃部分地区沙尘暴不均衡数据分类问题模型,并在实验中验证了上述算法在沙尘暴分类场景里的有效性。