关于不平衡缺失数据的分类算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:airingyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪科学技术的快速发展尤其是计算机技术更是取得了日新月异的成就,海量数据存储以及处理成为了可能。通过数据挖掘的方法来获取更多的决策信息是未来各行各业发展的趋势。在使用数据挖掘处理数据的过程,研究者经常会遇到不平衡缺失数据的问题。如在信用卡欺诈应用场景中,欺诈数据相对于正常数据较少,由于数据采集过程中,经常出现数据缺失,从而产生了不平衡缺失数据集。由于数据不平衡,缺失的特点,传统的分类算法难以有良好的效果。  本文首先对缺失数据集,不平衡数据集的特点进行了阐述,介绍了主流的处理此问题的方法。对此本文提出了相应的改进方法用以实现不平衡缺失数据的分类问题。本文的主要成果:  针对传统的缺失数据处理方法:KNN插值算法,存在多维数据集上的K近邻稀疏,K近邻距离倒数权重加权时不稳定问题,提出了基于变量聚类的距离公式来计算样本间距离,并使用指数反距离权重公式对近邻进行加权平均。得到了FC_KNN(Feature cluster KNN)算法。  针对处理数据不平衡问题时,使用欠抽样算法存在信息丢失的缺点,借助于Bootstrap的思想,提出多重抽样算法MS(Multi_Sample)。在多数类样本上进行多重抽样,然后将少数类样本与抽取的多数类样本进行融合,形成多个训练数据集,在每个训练数据集上训练Logistics_Boosting模型,并将所有的模型进行集成,生成最终模型。  本文算法在数据缺失程度,数据不平衡程度不同的多个数据集上进行试验,证明了算法的有效性。
其他文献
本论题立足于研究金融危机下美联储的非常规货币政策,从系统梳理美联储的各项救市政策出发,寻求非常规货币政策的理论支持,进而实证分析其有效性和不足,最后深入探讨政策的退出问
近年来,危化品运输车在运输途中屡屡发生重特大交通事故。为了有效减少因这些危化品运输车辆造成的交通事故,从源头上杜绝此类事故的发生,危险货物罐车的管理制度也正在积极地制定当中。  据悉,为改进液体危险货物罐车管理制度,提升本质安全水平要求,按照《改进道路运输液体危险货物罐车管理制度工作方案》的安排,危险货物罐车调研工作组对河北、湖北和江苏等省的罐车生产企业、罐箱生产企业、危险货物道路运输企业进行了调
中小企业是国民经济的重要组成部分。由于中小企业的高风险性,融资难始终是绝大多数中小企业面临的瓶颈。随着信用担保公司的出现,在一定程度上缓解了中小企业融资难问题,但信用
在“走出去”战略背景下,近年来浙江省对外直接投资规模不断扩大,对外直接投资对浙江省出口贸易的影响正不断显现。浙江省作为我国传统的经济贸易大省,在我国经济发展进入新常态后,如何协调发展对外直接投资和出口贸易的关系,实现通过对外直接投资促进浙江省出口贸易的健康稳定发展,意义重大。本文在研究贸易投资关系理论后,展开了浙江省对外直接投资和对外贸易的概况分析,以及贸易投资关系实证研究,最后得出结论和提出政策
随着房地产市场迅速发展,房价一路飙升,我国的个人住房抵押贷款业务也随之迅速发展。其利润高,期限长,风险较低的特点,使其成为各商业银行市场竞争的焦点.在业务迅速发展的同
学位