论文部分内容阅读
浏览行为的频繁模式描述用户浏览模式和偏好,其中集合频繁模式反映访问页面间的相关性,序列频繁模式描述用户频繁访问路径,正则频繁模式刻画用户访问行为的语义信息。浏览行为的频繁模式能够用于浏览行为预测、网站结构的优化以及浏览页面的推荐,具有提高用户的体验、增加系统的粘性的作用。本文主要研究可水平扩展的频繁模式挖掘算法,解决海量的日志数据的分析任务,并重点解决在分布式环境下基于模式增长算法的负载均衡和基于连接-剪枝策略算法的候选序列生成的问题,具体工作如下:1.集合频繁模式分布式挖掘:研究基于模式增长的集合频繁模式挖掘算法(FP-Growth)的分布式设计,建立条件模式树与挖掘负载之间关系,并运用它们之间关系设计分布策略,从而实现原始数据集均衡切分,避免建立全局FP-Tree,解决分布式挖掘算法过程中单点存储瓶颈问题,并设计一种基于Spark的近似负载均衡的FP-Growth分布式算法,从而实现负载均衡的集合频繁模式挖掘。2.序列频繁模式分布式挖掘:研究基于连接-剪枝策略的序列频繁模式挖掘算法AprioriAll的分布式设计,通过RDD的持久化缓存算子实现中间结果重用,减少磁盘I/O消耗。同时,改进AprioriAll算法频繁2序列的生成方式,使用PairWise方式代替频繁1序列自连接生成候选2序列的过程,解决了大规模的频繁1序列生成频繁2序列所造成的高额时空开销的问题,从而实现一种基于Spark平台下的可扩展的AprioriAll算法(Spark-AprioriAll)。3.正则频繁模式分布式挖掘:通过父-子类层次语义体系标注网页的类,将浏览网页序列转化为网页类型序列,从而定义正则频繁模式,描述用户访问行为的语义信息,并通过Spark-AprioriAll算法实现。4.系统原型设计和算法性能测试:首先,针对基于Spark的频繁浏览模式挖掘系统进行系统原型设计。然后,实施对照实验,验证本文提出的频繁浏览模式分布式挖掘算法的准确性、速度性能和扩展性。