基于类不平衡方法的电信客户信用评价应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wf136156491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着5G、云计算时代的到来,通信运营商既面临着挑战同时也存在机遇。在电信大数据、个人征信的背景下,运营商不再是简单的提供通信、上网服务,构建全面的、有效的用户画像刻不容缓。一个合理的信用评价模型能通过分析用户数据,挖掘潜在客户,关注低信用客户,避免呆账坏账,提高企业利润。论文研究重点是针对电信数据集类不平衡问题进行信用评价模型构建。主要研究内容和成果如下:首先对原始电信数据集进行了预处理和特征选择,研究了不同分类算法在不加处理的情况下对电信数据的分类效果。实验结果表明Light GBM模型在各个指标上有较为均衡的表现。通过准确率和G-means指标分析,可以得出当数据不平衡时,分类算法存在一定的局限性,即无法关注并识别少数类样本。其次,针对数据不平衡问题,从采样、代价敏感训练和异常检测三个方向进行实验。实验表明,对于文中的数据集,KMeans Smote过采样方法取得最优的表现,G-means得分高达81.6%。代价敏感模型的比较上,Ada Cost模型在各项指标上更加均衡,比对基准算法准确率低于2%,F1-score高6%。孤立森林异常检测算法比One Class SVM的准确率更高。此外还将其中表现好的三个算法进行Stacking堆叠,实验表明加权模型能提高原始堆叠效果,但是略输于Ada Cost子分类器。最后,参考Easy Ensemble等模型,为了解决集成采样算法中权重更新的盲目性,提出了CM-KSLGM(Cost Matrix-Kmeans Smote-Light GBMBoost)模型,模型引入代价矩阵进行样本权重更新,根据采样比例对少数类样本采用放回抽样,多数类样本不放回抽样构建训练集,用Kmeans Smote进行数据采样。对比实验说明CM-KSLGM模型能在保持有较稳定的G-means和F1情况下提高特异度和平衡准确率,且模型的抗风险得分KS有了一定的提升。
其他文献
弧菌病是虾养殖过程中面临的主要威胁。目前,还不清楚弧菌是如何穿透富含几丁质的虾壳和胃肠道,进而侵入虾宿主的过程。几丁质酶是一类能水解几丁质β-1,4糖苷键的糖苷水解酶,长期被认为是弧菌的重要毒力因子,但缺少直接的证据。本课题从虾生活环境出发,筛选获得一批具有降解几丁质能力的微生物,其中包括弧菌属细菌,实验评估了几丁质降解菌的降解能力。课题针对得到的虾类主要病原细菌(三株不同种的弧菌):溶藻弧菌、哈
多目标旅行商问题是典型的组合多目标优化问题,现实生活中物流配送等问题都可以转化为多目标旅行商问题求解。相比于经典旅行商问题以距离为单一目标,多目标旅行商问题还加入了时间、风险等其他目标。目前,一种常用的方法是基于种群的多目标进化算法。但是,多目标进化算法的个体针对具体问题编码。当问题的城市数量或城市坐标发生任何变化时,都需重新运行算法求解,从而消耗大量的迭代时间。另一种常用的方法是深度强化学习算法
作为第三代混凝土减水剂,聚羧酸减水剂具有减水率高、保坍性好和结构可设计性强等优点,近年来国内的年产量高达千万吨,但低水平同质化竞争日趋激烈。目前生产的聚羧酸大多都是梳形结构,有着分散性好、保坍性强等优势,但存在被跨国企业的发明专利“卡脖子”和分散性能难以进一步提升等问题。本文设计并合成了羧基封端型聚氧乙烯醚大单体,深入探究其合成工艺及优化参数,并研究了基于羧基封端大单体的传统梳形聚羧酸合成工艺、结
红曲色素是一种天然、绿色的可食用色素,也是目前唯一一种利用微生物发酵制备的天然色素,具有抗氧化、抗肿瘤、抗菌、抗炎和降血糖等特性,应用前景广阔。红色素是其中应用最广泛的一种。随着红曲红色素研究的深入,如何提高红曲霉液态发酵产胞外水溶性红色素的产量及应用质量是目前研究的难题。稀土元素作为诱导剂,在提高植物和微生物次级代谢产物的产量方面得到了广泛的应用,但是很少有关于稀土元素对红曲霉次级代谢产物影响的
文本分类任务从离散文本数据提取出的文本特征会因领域和背景不同而存在巨大差异,因此文本分类网络模型更复杂。复杂的结构给人工挑选最优的文本分类网络模型增加了难度和成本。神经结构搜索(Neural Architecture Search,NAS)将网络模型设计过程自动化,能降低文本分类模型设计的人力成本。目前用于文本分类任务的NAS算法存在两个问题:一、建模为马尔科夫决策过程(Markov Decisi
电站燃气轮机作为调峰机组在电网负荷调控中扮演着不可或缺的重要角色。面向可再生能源消纳背景下电网深度调峰需求,采用先进的调峰方式平衡机组发电峰谷差,提高机组调峰灵活性和调峰经济性成为燃气轮机电站系统发展必不可少的一个环节。然而受外界负荷波动的影响,电站燃气轮机往往处于变工况运行状态,导致机组运行效率不高,且调峰能力受限于机组设计参数、负荷控制策略及设备寿命等约束,难以宽范围地实时灵活匹配需求侧负荷。
临床常用的承重骨替换修复体钛是一种生物惰性材料,需改性赋予其生物活性。植入体内后,钛的生物性能已固定,其与宿主的相互作用无法根据体内微环境的动态变化主动调整。因此,通过体外刺激调控钛的生物活性以适配修复过程具有重要的实际意义。研究表明,材料表面特性,如形貌和电势等,是影响细胞行为的重要因素之一。然而,表面形貌和动态电势结合对细胞行为的影响尚不清楚,因此,本文对此问题进行了研究,具体内容如下:(1)
随着现代社会不断发展,人工智能的应用场景和遇到的现实问题越来越复杂,获取具有充分标注的数据集的代价越来越昂贵,这使得传统有监督机器学习算法的应用难度不断提高。域适应作为迁移学习的重要分支,是近年来广受关注的一种机器学习方法,当目标域数据集标签不足时,可以借助相似但不同的有标签源域数据训练分类器,并对目标域分类。此外,在实际生活中,还存在另一种更常见且更具挑战性的情况,即源域和目标域特征空间不一致造
伺服系统近年来应用广泛,在工业机器人、数控机床等应用场景中越来越多。随着工业信息领域技术日新月异,伺服电机的发展方向也越来越明确:即实现轻量化、自动化、高精化。尽管伺服电机优点突出,但是其研究中也存在诸多不完善的地方,值得进一步研究。基于上述相关背景,本文对伺服领域的永磁同步电机展开了研究。首先,针对伺服领域对电机有安装尺寸要求,电机需具备高转矩密度的性能,因此提出研究设计一款内置式永磁电机。根据
在传统软件应用开发模式中,开发团队与运维团队的工作相对独立,这常常导致在软件功能不断增多,软件架构逐渐变得复杂的生产实践场景中,软件的开发与交付速度难以满足版本快速迭代的需求。DevOps(Development&Operations)是一种通过将开发与运维紧密结合,从而提高软件应用的开发效率、加快其交付速度并降低测试和运维工作的成本,同时保障应用的服务质量的开发理念。容器技术是DevOps实践最