论文部分内容阅读
随着我国经济的不断发展,物流行业也增长迅猛,物流公共服务平台每天的访问量也在飞速增长。海量的访问日志数据看似杂乱无章,实则蕴藏着海量用户的各种行为习惯。平台通过对用户与网站交互过程深层次信息的挖掘,助力物流公共服务平台提供更好的服务、满足更深层的需求、留住更多的用户。因此本文具有为为平台提高物流企业效率、降低成本的实际意义。本文从用户访问日志入手,设计并实现了一套面向用户访问分析的物流公共服务平台日志处理系统,它涵盖了从日志收集、存储、分析到展示的过程。本文主要对以下几点进行了探索:(1)对文中涉及的技术进行了研究。对本文所涉及的访问日志、Flume和Hadoop等技术概念进行了研究。主要包括访问日志的作用及内容,Flume工具的架构原理和特点和Hadoop的相关技术。(2)对面向用户访问分析的物流公共服务平台日志处理系统的需求进行分析。针对当前平台无法存储和分析海量数据、数据利用率低等问题,结合用户访问日志的内容,得到解决相应问题的需求,对系统的功能提出了相应的需求指标。(3)完成面向用户访问分析的物流公共服务平台日志处理系统的设计和实现。系统将由采集存储、清洗过滤、分析挖掘和数据展示四个模块构成,并给出各个模块的设计方案。实现过程则对各个模块的功能在技术上进行实现,给出了相应的代码和处理逻辑。最后搭建了一套基于Hadoop的系统实验环境,通过实现的功能模块测试相应的功能,并对可视化的结果结合物流公共平台给出了分析。通过分布式计算等技术来对物流公共服务平台的用户访问日志进行存储和分析,解决了传统技术手段在面对海量数据时分析能力不足的问题。它的分析结果可以帮助平台知晓当前的业务发展状况,网站各页面访问的热度,用户在地理位置上的访问分布情况等,为管理者提供数据的支持。