非平衡数据集分类方法研究及其在电信行业中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:Play_pig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难点。所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式分类问题。在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降。本论文针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新的算法——AdaBoost-SVM-OBMS,该算法结合集成算法和采用错分样本点生成新样本点的过抽样技术。同时,在研究电信数据集特点和非平衡数据集分类方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测做了深入的研究和探讨。论文的主要研究工作如下:1.针对非平衡数据集分类问题,本文提出一种新的算法——AdaBoost-SVM-OBMS.该算法结合boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量与错分样本点同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别率。在AUC,F-value和G-mean等3个不同价格的评价指标下,针对8个benchmark数据集上对AdaBoost-SVM-OBMS算法进行了实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的对少数类和多数类具有较高的预测准确率。2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值的结果。
其他文献
本文基于高职院校招生的客观现状,对江苏省内数字媒体专业进行了实地调研,对其招生现状进行分析,旨在揭示生源危机下,数字媒体专业发展所存在的问题。探讨新形势下高职院校的
<正> 英语表达两方在性质、程度、数量上一方超过另一方,常用“形容词或付词比较级(…)than”差比结构。 英语的差比分为优等比较(Comparison of Superiority)和次等比较(Com
<正> 控制论的创立,不仅仅是一门横断科学诞生的标志,而且,本身也是一门具有科学方法论性质的科学。创立控制论的目的在于创造一种语言和技术,使我们有效地研究一般的控制和
以转基因小麦Glu-1-RNAi为供体亲本、弱筋品种扬麦18和扬麦13为受体亲本进行常规杂交与回交,采用半籽粒SDS-PAGE技术检测并分析亲本、Fl、F2、F3、BClF1、BC1F2、BC2Fl世代高
本文通过对新旧企业会计准则差异比较,着重从理论角度分析新会计准则第22号、第23号、第37号准则对农村信用社财务状况和风险管理两方面的影响。分析结果表明,新会计准则实施将
在苜蓿盲蝽(Adelphocoris lineolatus Goeze)形态研究的基础上,利用同工酶电泳技术,对苜蓿盲蝽12个不同种群的酯酶同工酶(EST)进行分析,以揭示该种昆虫的遗传多样性及遗传结构的
本文以江苏地区农村小额信贷的区域实践为研究对象,通过总结农村小额信贷运作轨迹,探讨农村小额信贷发展过程中存在的问题,结合农村小额信贷各因素相关分析,探讨了目前小额信
信用风险是其各种风险中最基本的风险,它直接影响着商业银行经营管理和生存发展,各国金融监管当局都非常重视,对商业银行面临的信用风险的监测和预警显得非常重要。本文试图
<正> 子宫出血是妇科疾病中常见的临床症状,包括月经量过多、经期延长、不规则及持续性阴道出血等病症。我们对60例出血量大或出血时间较长的病人(部分患者曾用中药、卵巢激