并行Fp-growth算法在搜索引擎中的应用

来源 :计算机科学 | 被引量 : 0次 | 上传用户:aa1bb1aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对用户历史检索过程产生的Web日志文件,研究其查询词和点击链接是否为频繁集,以及在分布式条件下频繁集挖掘的效率问题。基于Hadoop框架,设计了并行Fp-growth算法,对搜索引擎Web日志进行挖掘。仿真实验结果显示,满足支持度的查询词和点击链接频繁集在Web日志中普遍存在。随着Hadoop节点数的增加,并行Fpgrowth算法性能将得到大幅提高。由此,频繁集挖掘效率得到明显提高,且数据量越大,效率提升越明显。
其他文献
当今社会是信息化的时代,计算机技术和网络技术飞速发展。高校档案信息数字化是随着计算机网络技术、数据库技术以及多媒体技术的发展而产生的一种新型档案信息形态,它把分散于
针对传统径向基函数神经网络构造的网络分类器通常存在分类精度不高、训练时间长等缺陷,首先提出了一种改进的自适应聚类算法,用于确定分类器的隐含层节点。该算法通过筛选基
随着信息技术的发展,石油企业内部网络在生产经营活动中起到日益重要的支撑作用,这对网络的承载能力和安全性提出了更高要求。建立一个合格的内网安全系统,保证内部核心数据
档案统计工作就是利用统计手段收集、整理、汇总相关数据,并加以分析研究,以达到准确地掌握档案事业的基本情况,便于对档案事业实行科学管理的目的。国家档案局在总结了多年来的
在电子商务中,准确的推荐结果可以提高商品的成交量,从而给企业带来更多的收益.为了提高推荐算法的准确性,提出了一种基于项相关图的协同过滤算法.以商品作为顶点,以共同购买
随着社会信息化的不断演进和社会公众信息知情权的日益觉醒,人们对获取高校档案信息的愿望逐渐加强,高校数字化校园建设的深入,为高校档案信息不受时空限制利用提供了必要的环境
在深入研究音频特征的基础上,提取响度特征和音调特征,并利用粒子群算法优化特征权重.提出一种对歌唱片段进行自动评价的方法,用于视频点歌系统的实时评分模块.实验结果表明,
车制乳化炸药虽有众多优点,但其致命问题是重量威力偏低,葛洲坝股份有限公司爆破工程公司对车制乳化炸药开展了以提高重量威力为重点兼顾经济效益和生产工艺的优化研究,于1995年8月获
扩展了CCA并行构件体系结构,首先定义了一个并行构件非功能属性的一个最小集合,然后实现了对这些属性进行管理的非功能构件.定义了与这些非功能属性相关的接口.并行构件可以
空间关键字查询相对传统的位置相关查询而言更能满足实际查询处理的需要.着重探讨路网中结合距离和关键字相似度两个因素的空间关键字查询处理问题,提出解决路网中空间关键字