气象不均衡数据分类算法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:p_123_456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,极端天气以及沙尘暴等自然灾害在我国的西部地区甘肃、新疆、宁夏等地频繁发生,严重危害影响到当地的生态环境、社会经济和人民的生活。我们需要对这些气象数据进行分析和深入研究,比如沙尘暴气象数据的分类问题,从而为政府或者农业灾害预警提供正确的决策。分类是数据挖掘与机器学习的一个重要研究部分,传统的分类算法一般假设样本分布是均衡状态,但是在实际生活中存在大量不均衡数据,给研究带来了一定的挑战。考虑到沙尘暴气象数据存在数据分布不均衡的问题,论文实质上是对不均衡数据二分类问题的研究。不均衡数据分类在许多领域中有着重要的应用,如信用卡欺诈、医疗健康预测、异常检测等。对于不均衡数据分类,少数类的错分代价相对较大,比如在气象预测上,人们更加关注沙尘暴、暴雨、霜冻等极端天气的预测精度。传统的分类方法旨在最大化整体分类准确性,极大地限制了分类技术在实际问题中的应用。因此本文的主要目的就是在不均衡公共数据集以及气象数据集上,研究训练出一个准确率高且鲁棒性好的模型,使之能够更好地进行沙尘暴二分类问题。本文研究了不均衡数据分类问题的背景、意义以及现阶段国内外研究现状,并对不均衡数据分类的相关理论进行了分析和探讨,其中一种常见的是利用采样技术(过采样、欠采样、SMOTE以及相应的改进算法)将数据均衡化,另一种算法层面是对传统分类算法做相应的调整,研究主要从代价敏感、集成算法、阈值移动等方面展开。最后研究了F-measure、Kappa、AUC、G-mean等不均衡数据分类的相关评价指标。针对SMOTE过采样算法容易产生模糊边界的问题,本文首先从数据层面提出基于混合采样与Relief F特征选择的BSL-FSRF算法。该算法首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样本进行SMOTE插值,再利用Tomek link进行数据清洗,使数据集基本达到均衡的同时减少噪声样本的数量;其次引入“假设间隔”思想对各个特征维度进行度量,设定合适的阈值,将与类别相关性不高的特征移除,对数据降维;最后以随机森林作为分类器,用改进的网格搜索(Gridsearch)算法进行参数寻优,节省了运行时间。在公共数据集上对BSL-FSRF算法进行实验验证,结果表明该算法在少数类样本的分类准确率和分类器的整体性能上有明显改善。其次从算法层面结合代价敏感学习思想与核主成分分析(Kernel principal component analysis,KPCA)提出一种代价敏感的Stacking集成算法KPCA-Stacking。代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,该算法首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维,其次将KNN、LDA、SVM、RF按照贝叶斯风险最小化原理转化为代价敏感算法作为Stacking集成学习框架的初级学习器,逻辑回归作为元学习器,Stacking两层架构集成且KPCA算法能有效提取数据非线性特征,实验表明代价敏感的KPCA-Stacking算法取得较优的分类结果。最后在甘肃部分地区沙尘暴不均衡数据上,结合代价敏感的KPCA-Stacking算法构建了甘肃部分地区沙尘暴不均衡数据分类问题模型,并在实验中验证了上述算法在沙尘暴分类场景里的有效性。
其他文献
2005年10月27日修订后的《中华人民共和国公司法》(以下简称新《公司法》)第183条明确规定,公司经营管理发生严重困难,继续存续会使股东利益受到重大损失,通过其他途径不能解
在过去的10多年中,中国和印度两国经济高速增长,在影响着世界经济发展的同时,也引起了世界各国的极大关注。进入21世纪,印度通过推行科技发展战略在制药业和软件业领域取得了
溃疡性结肠炎(UC)是一种病因不明的直肠和结肠的非特异性炎症性肠疾病。病变主要局限于大肠黏膜及黏膜下层,临床主要表现为腹痛、腹泻及黏液脓血便。病因不明,病情轻重不等,且有慢
无线紫外光通信是一种新型的通信方式,利用气体分子和大气微粒对紫外光的散射作用来进行信息传输,具有高保密性、低背景噪声、抗干扰、全天候全方位工作和非直视通信等优势,
移动互联网的发展,使得新闻进入了视听化传播阶段,短视频、H5等成为重要的新闻报道形式。与电视新闻相比,短视频、H5页面在进行新闻报道时,在合理运用视听符号完成新闻事件报
本文研究了不同固溶处理后7055铝合金在3.5% NaCl溶液中的耐腐蚀行为,在3.5% NaCl溶液下进行了静态腐蚀试验及腐蚀磨损试验,并通过扫描电子显微镜对磨痕形貌进行分析。结果表明
针对具有强非线性、大纯滞后特性的EPI反应分馏生产过程的废液DOC体积分数控制这一控制难题,应用小波神经网络模型和结合机理分析模型及小波神经网络模型的混合模型结构进行
航空发动机是多学科交叉、多组件耦合的复杂系统,既要保证能在高温、高压、高速的条件下安全工作,又要满足推力大、寿命长、可靠性高等要求。涡轮叶片是航空发动机涡轮转子系
钠离子电池工作原理与锂离子电池相似,且其原材料储量丰度更高,开发成本更低,因此钠离子电池应用于大中型电网储能系统更具有经济优势。但由于钠离子半径较大,因此开发具有合
<正> 耳廓与人体经络、脏腑有着密切的联系,因而脏腑或经络有病可以反应到相应的耳穴。由于它适应症广,奏效快,操作简单,经济方便,易为病人接受,所以近年愈来愈被广泛地运用