论文部分内容阅读
伴随着手机和网络的普及,游戏产业迎来黄金时代。截止2018年,我国现有游戏用户达到6.26亿人,游戏市场实际销售收入达到2144.4亿元。但另一方面,游戏产业也存在问题亟待解决。游戏产业竞争同质化现象严重,游戏用户增长已到达瓶颈期,游戏厂商难以通过增加用户数量来获利。游戏产业急需引入新的活力。在游戏厂商难以增加用户数量时,筛选出优质用户和潜在付费用户人群已逐渐成为游戏行业的迫切需求。传统的付费预测研究大多采用问卷调查的方式,通过预先设置几个维度采集样本,然后预测用户是否付费,这样既限制了不同算法的应用,而且游戏预测结果难以直接应用到游戏厂商筛选付费用户人群。本论文提出了一种全新的大数据时代预测用户游戏内付费方法,即利用游戏厂商记录游戏用优质用户行为的大数据,预测用户是否会在游戏内付费。本实验数据源有上百个维度、上百万条记录,在实验中搭建了Hadoop和Spark大数据实验平台,为本文研究提供分布式存储和计算能力,解决了传统建模时数据量巨大导致的计算能力不足的问题。本论文数据源高维稀疏、正样本不足1%且数据有脏值,在建模之前进行了数据预处理。清洗数据脏值后对数据进行PCA降维,在保留数据绝大部分信息同时解决了建模时的高维度灾难。采用SMOTE补充正样本避免了传统过采样带来的建模过拟合和欠采样带来的数据信息丢失。在预测用户是否付费时,本论文实现了XGBOOST的分布式计算建模,并采用了传统方法(逻辑回归、决策树、随机森林)和XGBOOST方式对比建模效果。经对比发现,XGBOOST算法在处理此类高维稀疏矩阵时建模预测结果无论精准率还是召回率都普遍更好。在游戏厂商的用户红利逐渐消失时,在现有用户中筛选付费用户人群的重要性不言而喻。本文旨在提出一种大数据时代下预测用户游戏内付费的方法,通过PCA降维、SMOTE补充正样本方法解决数据的维度过多和正负样本不均衡问题。在大数据平台中建立XGBOOST的分布式模型,并与传统的模型预测方法对比,证明XGBOOST在处理高维稀疏和数据量巨大的用户付费预测模型时效果更好。本论文中解决了大数据时代下用户游戏内付费行为研究中的数据量巨大、维度多、数据高度稀疏和数据正负样本极不均衡问题。本文提出的大数据时代下预测用户是否付费的方法避免了传统问卷调查付费研究的实用性不强、研究结果不能被厂商直接采用的弊端。有助于游戏公司筛选出优质用户,提升公司效益。