基于客户流失预测的不平衡数据研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:victor0901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据不平衡问题给分类问题带来了挑战,特别是对少数类样本的预测。比如,在客户流失预测中,我们的目的是定位即将流失的客户从而采取措施挽留客户,但是数据样本中流失客户数量远少于未流失客户,这使分类预测中模型倾斜于多数类样本,忽视对少数类样本的正确预测,这与我们关注的目标群体相违背,因此减轻数据不平衡问题对实际应用有很大的意义。数据合成是增加少数类样本数量的有效手段,他有效避免了随机采样造成的信息重复或信息缺失等问题,ADASYN自适应加权合成算法依据少数类样本周围多数类样本数量自适应合成样本数量,为整个数据集提供更多更有效的信息。决策树在分类问题中应用广泛,但决策树对偏斜敏感,对少数类样本的预测缺乏准确性。海林格距离对偏斜数据不敏感,因此改变决策树分裂准则,提出一种基于海林格距离最大化的决策树可以有效地处理数据不平衡问题。针对以上存在的问题以及有效算法,本文提出一种数据合成结合海林格距离决策树的集成学习算法,该算法面对数据不平衡问题能有效提升分类器的性能,更好地预测目标类样本。为研究证明该算法有效性,本文做出以下工作:(1)对客户流失数据集进行正负样本统计并探索该数据集的缺失值以及异常特征,对缺失值进行插值处理,删除异常特征。利用箱型图识别异常数据删除含有异常数据的记录。最后利用IV值结合特征之间的相关系数法选择对预测目标变量有帮助的特征进行模型训练。(2)对处理好的数据进行对照实验,对照的算法模型分别是普通决策树,海林格距离决策树(Hellinger Distance Decision Tree,简称HDDT)以及海林格距离决策树的集成学习算法,分别输出不合成数据和合成数据条件下的各个算法的评估准则值,包括AUC数值,F1分数以及G-mean,这三个准则在评估不平衡数据下的模型有参考价值。得到本文提出的算法在预测客户流失这个问题上对数据不平衡是有显著效果的。(3)设置不同正负样本比例,对样本进行随机抽样训练模型输出各个比例下各算法的AUC数值,F1分数以及G-mean,通过对比分析,基于海林格距离决策树在数据不平衡状态下优于普通决策树。数据不平衡度越大,海林格距离决策树的优越性体现的越明显,在平衡状态下,二者的性能相差不大。
其他文献
[目的]1.通过质性研究了解乳腺癌幸存者的体力活动行为和心理体验,为制订行为干预措施提供依据。2.跨文化调适BCTTv1,开发适合临床人员使用的行为干预工具。3.基于BCW针对乳腺癌幸存者编制行为改变干预方案。[方法]1.半结构式访谈法用于武汉市某三级甲等医院乳腺外科或门诊就诊的12名乳腺癌幸存者的数据收集。Colaizzi分析法用于访谈数据分析。2.使用Brislin翻译模型对BCTTv1进行直
学位
背景和目的:胃癌是目前世界范围内最常见的、致死率最高的恶性肿瘤之一。而且我国是全球胃癌的高发地区之一,每年新增病例近68万。同时,由于多数胃癌患者早期无明显症状或体征,确诊时已处于中晚期,已失去手术治疗机会,治疗难度大,复发率高,预后极为有限。MET突变作为近年来肿瘤分子靶向治疗的热门靶点之一,针对MET的靶向治疗的临床研究取得了不错的成绩。但是,胃癌的高度异质性限制其靶向治疗研究的进展。胃癌的发
学位
目的1.通过体外实验探究NLRP3抑制剂MCC950在IL-1β刺激的小鼠软骨细胞中对NLRP3蛋白的抑制作用以及MC9950的抗炎和抑制分解代谢的作用,同时探讨MCC950对于自噬和氧化应激的调控作用。2.探究MCC950发挥作用所调控的炎症、分解代谢、自噬、氧化应激相关通路。3.通过体内实验探讨MCC950对小鼠OA软骨退变的保护性作用。方法1.使用生物信息学方法分析MCC950可能作用的基因
学位
目的探究跑台运动对创伤性骨关节炎(post-traumatic osteoarthritis,PTOA)大鼠肌肉-骨骼单元(肌肉、软骨和软骨下骨)的影响,以及研究运动诱导肌肉因子鸢尾素(Irisin)的表达与关节软骨损伤程度的相关性。方法1.选取18只250±10g的8周龄雄性Sprague Dawley(SD)大鼠,长期饲养在SPF级环境内。将大鼠随机分为2组,分别为假手术组(n=6)(Sham
学位
目的:本研究旨在探讨USP11在肝癌化疗耐药中的作用及其机制,为今后开发新的肝癌治疗靶点提供理论依据。方法:收集来自华中科技大学附属同济医院普外科的肝癌组织和癌旁正常组织样本,运用Western blot和免疫组织化学染色检测其中的USP11水平;采用慢病毒载体构建了敲减USP11的肝细胞癌细胞系,并以CCK8实验检测敲减USP11后肿瘤细胞对于顺铂敏感性的改变;免疫共沉淀实验检测USP11与PA
学位
目的横纹肌肉瘤(rhabdomyosarcoma,RMS)是常见于儿童的一种软组织恶性肿瘤,起源于间叶组织。以PAX3/7-FOXO1等融合蛋白为特征,将RMS分为融合基因阳性(fusion-positive,FPRMS)和融合基因阴性(fusion-negative,FNRMS)横纹肌肉瘤,而融合基因阳性与预后差有关。尽管FNRMS的预后良好,但对于患病的儿童及青少年来说,传统的化疗、放疗对患儿
学位
等离子体是由大量带电粒子组成的非凝聚系统,当等离子体的运动和电场的运动紧密耦合时,存在非常丰富的集合效应和集体运动模式,我们可以用VlasovPoisson方程来描述等离子体的演化规律。本篇文章主要研究:在二维情况下,两组分的Vlasov-Poisson系统的无限质量问题。首先,我们介绍经典的Vlasov-Poisson系统的研究背景以及无限质量问题的研究现状。其次,我们给出本篇论文的核心结论和后
学位
目的:利用高分子聚合物负载化疗药物构建药物递送系统可实现肿瘤局部化疗。本研究拟通过静电纺丝制备负载化疗药物的纳米缓释纤维药膜并探究其在体内外的抗肿瘤效果。方法:静电纺丝技术制备共载顺铂和吉西他滨的聚乳酸纤维药膜;应用扫描电镜观察纤维膜表征;采用高效液相色谱法测定载药纤维体外释放行为。以人前列腺癌细胞DU145为研究对象,以流式细胞术及Western Blot实验检测DU145细胞接受不同处理后细胞
学位
随着大数据的发展,数据分析、数据挖掘等创新技术已经在众多学科领域中得到了广泛运用。聚类分析是我们在实践中运用非常多的一种无监督数据挖掘类算法。而k均值聚类算法是日常中使用频率最多的聚类型算法,但是k均值聚类算法也同样有其缺点:首先算法很可能陷入局部最优,难以实现想要的聚类效果,初始聚类中心的选取肯定会影响到聚类的最终结果,不一样的初始中心肯定会是不一样的呈现,可能达不到理想的聚类结果;其次k值的选
学位
随着航天技术与遥感技术的发展,遥感卫星影像数据越来越容易获得。遥感影像在城市规划、灾害评估、土地利用、交通检测、军事安全等方面都有着广泛的应用。为了高效的利用大量影像数据,需先对影像进行处理,提取关键信息。其中一项关键技术,就是图像语义分割技术,因此研究遥感影像语义分割算法有重大的应用价值。本文基于U-Net等通用语义分割模型,并进行适当的改进,将高性能的图像语义分割算法迁移到遥感影像数据集上,在
学位