不均衡电信客户数据的分类问题研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:sukeyjuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际的电信客户数据集中,流失客户的占比远远低于非流失客户,故将客户流失预测视作不均衡数据的分类问题。传统分类算法以整体预测准确率为学习目标,忽略了偏斜的数据分布对分类结果的影响以及特征对类标签的识别作用,从而导致分类器对非流失客户过度学习,而对流失客户识别不足。因此,探索高效的不均衡数据分类方法对于解决流失预测所面对的数据不均衡问题具有重要意义。本文的主要研究内容如下:1.针对传统分类算法对不均衡电信客户数据集中流失客户识别能力不足的问题,给出了一种基于差异度的改进型不均衡数据分类算法(IDBC)。该算法借助差异度表示理论,利用样本对象之间的依赖性来重新定义样本对象的描述方式,并在差异度表示方法的基础上改进了原型选择策略,增加了特征选择。2.在构建分类模型的过程中,首先通过特征选择来消除冗余、无关的客户属性对原型选择的干扰,然后采用改进型的样本子集优化技术(ISSO)从整体数据集中选择最具参考价值的原型集,最后分别利用训练集和原型集、测试集和原型集样本之间的差异性来构建相应的特征空间,并采用传统的分类算法对映射到相应特征空间内的差异数据集进行学习。3.借助UCI数据库中六个普通的不均衡数据集以及两个电信客户数据集来验证该算法的有效性,并分析了特征选择方法、原型选择策略、原型对象数目以及差异度度量方法对IDBC算法的性能影响。实验结果表明:(1)改进型的样本子集优化技术(ISSO)能够消除随机选择所带来的不确定性;(2) IDBC算法不受偏斜类别分布的干扰,并且对不均衡数据集中少数类的识别能力优于已有的先进分类技术;(3) mRMR特征选择方法、ISSO原型选择策略、20个原型对象以及标准欧氏距离度量方法是目前IDBC算法在解决不均衡电信客户分类问题时的合理选择。
其他文献
目的:检测非小细胞肺癌(non small cell lung cancer,NSCLC)患者血清中血管内皮细胞因子C(vascular endothelial growth factor C,VEGF-C)、白介素-8(Interleukin-8,IL-8)及基
一种风机变桨系统,模式为单液压缸拖动三叶片变桨,包括叶片、星行架、变桨杆、变桨滑套、液压缸,所述星形架通过一导向杆与叶片连接,变桨杆一端与星形架连接另一端与液压缸连
<正>不知你是否参观过园林。蜿蜿蜒蜒,廊腰缦回。一步一景,时光时影。有清潭的波光粼粼,有竹影的婆娑可爱。明亮之处,便是澄澈明敞,而幽阴之处,也颇有"曲径通幽"的意韵。光影
期刊
非线性偏振旋转(NPR)锁模光纤激光器以其结构简单紧凑而备受关注,是光通信系统、光传感和光探测等的理想光源。介绍了非线性偏振旋转锁模激光器的研究进展,分析了其工作原理、锁
高校毕业生就业问题是全社会关注的热点。随着高等教育大众化,高校毕业生就业也进入到大众化时代,就业的总量矛盾和结构性矛盾更为突出。了解高校毕业生在就业问题上的困扰,
实荣村是雷州半岛一个自然村落,村周围保存有约10 hm^2的天然次生林,依乡俗民约,作为风水林加以保留。实荣村风水林有2种类型:村落宅基风水林、坟园墓地风水林。前者保存完好,
以猕猴桃果汁为原料,采用液态发酵法制取猕猴桃果醋,通过单因素试验和正交试验,探讨猕猴桃果醋运动保健饮料生产工艺条件。结果表明,猕猴桃果醋酒精发酵工艺条件为:酵母菌接
目的:探讨对冠心病患者应用复方丹参滴丸胶囊联合阿司匹林治疗的临床疗效及药物安全性。方法:回顾性分析本院2013年1月-2015年12月收治的92例冠心病患者的临床资料,并将所有
湿陷性黄土地区岩土工程往往涉及大量挖方填方工程,极易引发一系列的地面沉降和植被破坏问题。本文基于SBAS-InSAR技术结合遥感数据处理对延安新区平山造城工后地面沉降及植
9月1日,2019市场监督管理论坛——天津分论坛举办。分论坛以"激发市场活力优化营商环境——智能时代、智慧监管、智造津彩"为主题,立足天津经济社会发展,研讨创新智慧监管,持