论文部分内容阅读
近年来,随着互联网用户越来越多,用户行为信息量不断增加,其增长速度让人感到不可思议,根据一个互联网企业的统计,用户在网络上购买某一商品前,平均需要打开五个不同网店地址,浏览网页超过三十个,搜索次数大于十次。这些信息具有较大的分析价值,从中可以分析出用户的相关特征,从而可以为用户提供周到的推荐服务,这对公司和用户自身都是有益的。目前,面向用户特征数据分析的应用越来越多,导致数据分散、工作量重复等问题,缺少一个统一的方案来解决此类问题,因此开发一个用户特征数据统一分析平台变得越来越有必要。本文首先简介了Hadoop大数据处理的研究现状,然后阐述了用户特征数据分析的研究现状,为开发该系统提供了必要的参考,同时介绍了用户特征数据分析相关的应用。在需求分析阶段,制定了该平台的各项需求,根据其需求,对平台做了详细的设计,从功能的不同的角度出发,将平台划分为数据采集模块、数据预处理模块、模型建立模块和用户特征查询模块。数据采集模块支持不同方式的采集。预处理模块提供了一个预处理框架,可以根据需求自定义操作顺序和操作内容,使得预处理过程更加方便和灵活,目前平台支持封装、切词、特征提取、权值计算、数据格式化等预处理操作。在模型建立阶段,平台利用支持向量机分类算法、朴素贝叶斯分类算法和Adaboost算法,通过训练生成模型,以供预测需要。特征查询模块对外提供了远程调用的接口,内部实现了LRU缓冲区,提高了平台性能。为了体现平台的可用性,基于平台实现了用户性别识别、用户年龄识别和用户消费能力识别的具体应用。在平台的测试阶段,详细制定了平台的测试方案,对每个模块的功能编写测试用例并测试通过。最后,对三个识别应用进行测试,使其指标均达到要求。论文最后总结了整个平台所解决的问题和未来改进方向。目前,该平台已经投入使用,为不同的应用提供对用户特征数据的分析。