论文部分内容阅读
随着互联网的飞速发展,民众购物方式大幅度转型,对于大规模电商APP数据的分析研究具有较高的商业意义和研究价值。对于移动运营商来讲,如何在大规模移动流量数据中快速且有效的甄别电商APP用户的行为类别,如何从用户流量信息中挖掘出更有价值的信息,成为一个重要的研究课题。但传统基于知识工程的人工识别标记用户行为数据的方式耗时耗力,已然不适用于APP数量不断暴增的现状。因此,本论文的核心研究工作就是基于移动DPI流量数据,实现移动电商APP用户行为的自动识别与购买行为预测。具体来说,本论文的主要研究内容如下:1.采集移动DPI数据并完成电商APP用户数据的预处理首先,从移动上网流量中提取国内主流电商APP的URL信息,生成正则表达式文件,完成流量规则识别。其次,基于Hadoop平台上的MapReduce框架,对原始的移动DPI数据进行流量规则匹配,过滤出移动电商APP用户数据集。2.提出基于URL的电商APP用户行为自动识别方法针对电商APP用户数据集中的大规模URL数据,提出基于URL的电商APP用户行为自动识别方法。该方法采用了六种不同的特征提取策略,分别为基本切分方式(Baseline)、消除大小写差异、基于URL组件信息、基于URL组件长度信息、基于Bi-,Tri-grams以及组合词分割。再采用朴素贝叶斯、支持向量机、逻辑回归、决策树及随机森林五种不同的机器学习算法构建多分类模型,实验结果表明所提出的电商APP用户行为自动识别方法准确性超过75%。3.提出基于DPI数据的电商APP用户购买行为预测方法针对移动DPI数据,从用户角度挖掘能够代表用户电商APP购买习惯的特征。并结合基于URL的电商APP用户行为自动识别结果,提出基于滑动窗口的用户购买行为预测方法。实验证明了所提出的用户购买行为预测方法具有较好的效果,并且挖掘新增的用户行为特征可使预测准确性明显升高。