论文部分内容阅读
互联网已经融入人们的日常生活之中,也使得人们摆脱了原本信息匮乏的时代,进入了信息爆炸的时代。现如今,信息的总量激增,光是每天增加的新信息,也是没有任何一个人有足够的精力去一一了解的,这使得人们面对海量的数据感到无所适从。为了解决这个难题,就需要我们通过分析用户的行为,得知用户的兴趣喜好,从而有针对性的为用户推荐他感兴趣的信息,帮助用户有选择性的获取信息。这样的方式,无论从用户的角度和从信息提供者的角度都是非常有利的。因为,从用户的角度,减少了用户筛选信息的工作量,能够直接获取到想要的信息;从信息提供者的角度,有针对性的向相关用户推送信息,而不是毫无选择的海量推送,降低了信息推送的成本。本文首先介绍了本课题的研究背景、研究意义和研究现状。然后介绍了移动互联网用户行为的特点、移动互联网用户行为分析的内容和方法以及数据挖掘在移动互联网用户行为分析中的运用。接着,本文概述了基于云计算的海量用户行为数据分析,其中涉及到海量数据的处理难点,并简介了Hadoop技术、MapReduce编程框架和Hadoop分布式文件系统。接下来,简要介绍了本文所用到的数据的采集过程和预处理过程。然后,分别详细介绍了用户访问服务器模式挖掘,用户流量与时空相关性分析,协同过滤算法研究与用户兴趣推荐系统。其中,用户访问服务器模式挖掘分别从用户访问服务器IP地址数和服务器IP地址的用户数两个方面进行了统计分析,并根据分析结果对用户和服务器IP地址进行了简单的分组。用户流量与时空相关性分析是从用户的移动性与流量的关系和用户的时间活跃度与流量的关系两个方面进行的分析。最后,在协同过滤算法研究与用户兴趣推荐系统的介绍中,分别介绍了推荐系统、协同过滤算法和Mahout,并使用Mahout对本文中的数据进行了实验,对实验结果进行了分析。