论文部分内容阅读
随着工信部4G牌照的发放,移动互联网迎来了自己的又一个春天。4G网络-作为上网速度快、延迟时间短、流量价格低的代名词,不仅能实现移动用户的高速数据业务,而且能较好地满足移动用户高速和大容量的上网需求。再加上移动终端的便携性,将会有越来越多的用户通过移动终端接入互联网,那么对传统互联网用户上网的行为,将会逐渐转移到移动互联网上。这将为移动互联网的发展提供新的机遇,同时也会带来新的挑战。21世纪,不但是信息化的时代,也是讲究时间效率的时代。在移动运营商、电商风靡的时代,谁能抢在时间前头,把有效精准的服务和产品传达给用户,为用户提供个性化的业务,从而保持其在同行业的领军地位,以创造最大的收益。这是一个机遇,也是一个挑战。那么对移动用户上网行为关键技术进行研究以及对用户上网行为进行分析,了解用户上网的特点,从而为其提供高附加值精准的个性化服务及高质量的产品势在必行。本论文首先从分析移动用户上网行为的研究现状、关键技术和研究方法着手,阐述了用户行为分析的关键技术,并通过分析已有的移动用户行为分析方法,提出了通过使用多维序列模式挖掘算法分析移动用户上网行为的方法。该方法是在挖掘出用户频繁浏览模式的前提下,考虑其它维的信息,如用户IP、地域等,能更全面的反映用户上网的特性和潜在的上网需求,能为网络管理员进行网站优化与调整提供参考,能为运营商调整营销策略与模式提供依据,从而又能为用户提供强有效的服务及高品质的产品提供保障。接着,研究分析了目前已有的序列模式挖掘算法,如GSP、PrefixSpan、PSPM算法等和多维序列模式挖掘算法,如Seq-Dim、Seq-mdp等,并用实例分析比较了它们的优缺点。在此研究分析的基础上提出了本文改进的3PC-MDSP算法,它与Seq-Dim、Seq-mdp等多维模式挖掘算法类似,先挖掘出序列模式,然后在挖掘出序列模式的前提下,挖掘出多维模式。只是本算法在挖掘序列模式时,采用本文改进的3PC算法,即基于前缀位置投影位置元组比较的算法,在挖掘序列模式时不用构造投影数据库,通过构造前缀投影位置元组,根据元组投影位置为切入点扫描数据库,并通过比较不同元组的前缀位置与投影位置避免了频繁项的重复扫描和挖掘,且比较元组数与最小支持度的大小,若小于最小支持度,则不用继续挖掘,避免了对非频繁模式挖掘时间的不必要的浪费,提高了算法的效率。并通过IBM数据生成器生成的数据,验证了算法的有效性。最后,设计并实现了移动用户上网行为分析系统。介绍了移动用户上网服务器端的Web日志格式,处理方法及数据存储方法。并通过将改进算法3PC-MDSP算法应用到系统上对用户上网行为进行分析。