论文部分内容阅读
随着互联网快速发展和在线社交网络日趋发达,新消费群体触媒习惯的不断圈层化、碎片化,使金融及汽车服务行业获客难等问题愈加严重。购车人群与潜在购车人群具有金融价值高、群体数量大及增长速度快等特点,这类人群的用户画像不论对金融业务营销还是汽车行业营销都有着重要作用。然而仅有少量机构掌握这部分信息,且由于数据不全面导致购车及潜在购车人群难以挖掘,给未掌握这类信息却有相关需求的机构带来巨大挑战。移动大数据拥有丰富的用户位置及移动互联网等数据,对于人群挖掘具有得天独厚的优势。因此,本文基于移动数据开展对购车人群与潜在购车人群挖掘的相关问题研究,实现精准的人群挖掘。购车人群挖掘方面,针对特征高维度不均衡问题引入特征分层思想,首先根据数据特性将其分为静态特征和动态特征两类,其次加入特征工程进行特征设计。针对XGBoost算法参数调优问题,利用改进的遗传算法来弥补参数寻优易陷入局部最优解等缺陷。将所得最优参数组合应用于训练模型,构建基于改进XGBoost算法的已购车人群识别模型,进而提升模型的准确度。潜在购车人群挖掘方面,利用组合赋权法进行综合评价。针对多赋权法的高运算复杂度问题,利用兼容性特点保证性能基础上减少组合权重数量。针对样本数据构造的理想点无法准确评价用户购车倾向,本文根据购车事件相关性特点,利用真实购车用户数据构造理想点,提高评价性能。在模型训练阶段,考虑样本稀疏性问题,采用半监督学习算法进行训练,达到挖潜提效目的。最后,利用测试数据集对购车人群挖掘模型以及潜在购车人群挖掘模型的性能进行验证。本文从Precision、Recall、F1-score及转化率等指标分别评估所提算法,并将其与传统算法进行对比。通过对比可知,在购车人群挖掘模型方面,本文所提特征选择方法及改进的XGBoost算法结果优于传统方法,其人群识别精确率达到91.5%。此外,在潜在购车人群挖掘方面,本文提出的组合赋权法结合半监督学习算法性能优于传统方法,其潜在购车人群挖掘精确率达到88.2%,满足模型的设计需求,具有一定的应用价值。