基于Spark的频繁浏览模式挖掘系统的设计与实现

来源 :东南大学 | 被引量 : 1次 | 上传用户:xmyhehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
浏览行为的频繁模式描述用户浏览模式和偏好,其中集合频繁模式反映访问页面间的相关性,序列频繁模式描述用户频繁访问路径,正则频繁模式刻画用户访问行为的语义信息。浏览行为的频繁模式能够用于浏览行为预测、网站结构的优化以及浏览页面的推荐,具有提高用户的体验、增加系统的粘性的作用。本文主要研究可水平扩展的频繁模式挖掘算法,解决海量的日志数据的分析任务,并重点解决在分布式环境下基于模式增长算法的负载均衡和基于连接-剪枝策略算法的候选序列生成的问题,具体工作如下:1.集合频繁模式分布式挖掘:研究基于模式增长的集合频繁模式挖掘算法(FP-Growth)的分布式设计,建立条件模式树与挖掘负载之间关系,并运用它们之间关系设计分布策略,从而实现原始数据集均衡切分,避免建立全局FP-Tree,解决分布式挖掘算法过程中单点存储瓶颈问题,并设计一种基于Spark的近似负载均衡的FP-Growth分布式算法,从而实现负载均衡的集合频繁模式挖掘。2.序列频繁模式分布式挖掘:研究基于连接-剪枝策略的序列频繁模式挖掘算法AprioriAll的分布式设计,通过RDD的持久化缓存算子实现中间结果重用,减少磁盘I/O消耗。同时,改进AprioriAll算法频繁2序列的生成方式,使用PairWise方式代替频繁1序列自连接生成候选2序列的过程,解决了大规模的频繁1序列生成频繁2序列所造成的高额时空开销的问题,从而实现一种基于Spark平台下的可扩展的AprioriAll算法(Spark-AprioriAll)。3.正则频繁模式分布式挖掘:通过父-子类层次语义体系标注网页的类,将浏览网页序列转化为网页类型序列,从而定义正则频繁模式,描述用户访问行为的语义信息,并通过Spark-AprioriAll算法实现。4.系统原型设计和算法性能测试:首先,针对基于Spark的频繁浏览模式挖掘系统进行系统原型设计。然后,实施对照实验,验证本文提出的频繁浏览模式分布式挖掘算法的准确性、速度性能和扩展性。
其他文献
从村民自治制度在基层民族村寨的发展历程来审视我国村民自治制度在民族地区的建立和发展,尝试从文化变迁的角度在民族地区村民自治制度建设和发展的讨论中提供一个新的视角。
生物医学数据智能化处理是当前医学信息工程中一个研究热点,针对梯度下降BP(反向传播)神经网络收敛速度慢,易于陷入局部极小等缺点,采用LM神经网络对梯度下降算法进行改进。分
海通期货股份有限公司作为海通证券股份有限公司控股的期货公司,深刻领会党和国家脱贫攻坚战略的内涵,助力推动脱贫攻坚与乡村振兴有机结合相互促进,积极响应中国证监会《关于发
学位
采集黑河上游排露沟小流域的多个土壤剖面的84个土壤样品,自然风干处理后,利用美国ASD光谱仪获得土壤的反射光谱曲线,分析其光谱特性与响应原理。结果显示:个别土壤曲线表现
随着计算机网络技术的发展和普及,网络在教学活动中的作用不断增强。本文从综合性的案例出发,充分利用课程网站平台和网络辅助教学手段,探讨基于网络、面向案例的医学统计学教学
介绍了花卉立柱式装置的基本结构和营养液循环系统,无土育苗技术和营养液管理,并简述了花卉立柱式无土栽培模式的应用前景.
目的筛查新疆阜康牧区哈萨克族原发性高血压人群NEDD4L基因变异位点。方法随机选择94例30-60岁高血压患者,利用美国AB I公司3100xl基因分析仪对NEDD4L编码区31个外显子、部分
针对辽宁老工业基地振兴过程中的经济体制改革问题进行研究。指出辽宁现存的经济体制和运行机制的某些方面与市场经济不相适应,必须对其进行改革与创新。在分析辽宁老工业基
“没被骗过,就永远长不大。”这句话原本是家长用来教育上当受骗的孩子。可如今,这句话对家长而言,同样受用。“一卡在手,说走就走”。如今,无论是出门购物、休闲、娱乐还是
电影《赎罪》是一部唯美的悲剧电影。影片以经典的爱情、战争及人性为主题背景,讲述男女主人公纯洁、凄美的超越了阶级、战争甚至生死的爱情,感动了亿万观众。由于置于宏大的