分布式数据挖掘在网站日志分析中的开发与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:bokui0913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够更加了解用户的需求,为企业带来价值。然而传统集中式数据挖掘算法不能很好地处理大数据量的Web日志挖掘,所以本文旨在将挖掘算法与Hadoop分布式平台结合,并针对Web日志挖掘主题提出改进。本文首先对Web日志预处理进行分析,并且根据目前会话识别中的缺陷提出个性化会话分割,使不同用户采用适合其自身行为习惯的会话分割阈值,并且将预处理与Hadoop平台进行结合,加快处理的速度。由于频繁模式挖掘采用基于聚类的动态决策,所以接着实现了Hadoop平台的D-DBDC聚类算法,根据Web日志数据的特点自定义了前缀相似性度量方式,针对DBDC的局部聚类中对噪声的处理容易丢簇的现象,提出对噪声数据的处理方案,对局部调整部分提出适合Web日志挖掘主题的修改方式。最后对于频繁模式挖掘在Web日志中的应用,分析了Web日志挖掘往往具有多个感兴趣主题的特点,提出基于聚类动态决策的D-FP-Growth算法,该算法根据聚簇的数目,即用户感兴趣点的多少,动态决定采用基于水平分割的或者基于垂直分割的分布式FP-Growth算法,并且为充分利用Hadoop集群的计算能力,采用分别适用于两种方式的平衡策略。最后对系统挖掘算法,采用多组数据进行测试,证明了个性化会话识别算法的有效性,D-DBDC算法的准确性有所提高,同时对于Web日志挖掘这一应用,D-FP-Growth算法不仅减小了分布式节点之间的重复性工作,而且能够很好得平衡各机器节点的计算量,从总体上降低了算法的平均运行时间。
其他文献
随着互联网、移动通信和信息安全技术的快速发展,Java智能卡以其良好的安全特性、面向对象的编程环境、支持一卡多用和重用等众多优点在当前的网络时代得到了广泛认可和应用,
儿童游戏场所是儿童“游戏”生活行为的载体,儿童通过游戏可以获得其他生活行为难以获得的自发性创造的勇气和能力,养成成为大人所必要的人际关系和自治的能力,即游戏对于儿童有
我国高速公路的建设规模逐步扩大,在各类复杂地质环境下,灌注桩取得广泛应用。作为一种全新的方法,旋挖钻孔灌注取得突出的应用效果,成为推动高速公路建设事业的关键。对此,
观光农业作为一个农业范畴中的新型经济增长点,自产生以来就受到各国的重视,纷纷开展本国的观光农业开发工作。我国的观光农业最早出现在20世纪80年代,随后的30多年里,在东部和南
2017年2月公布的中央一号文件意味着这一年将是农业供给侧结构性改革的关键时点。通过改革来实现农业产业升级的核心突破点必然是创新,只有加快农业研发(R&D)的脚步才能实现
联合应用经股动脉插管肝动脉化疗栓塞术(TAE)和在B超引导下经皮肤肝穿刺瘤内注射无水酒精(PEI)治疗原发性肝癌42例,肿癌面积缩小≥50%26例(61.8%),30%~49%14例(33.3%),【30%或无变化
随着电器制造技术的发展,尤其是大规模集成电路技术的不断进步,电子产品体积越来越小,而其功能却日趋强大,智能化程度不断提高。然而,随着智能电子产品功能的强大,其整体质量
大学精神是大学文化的核心,哈工大精神经历近百年的沉淀,已具有相当深厚的精神内涵和外延,在新时代具有认知导向、情感陶冶、意志凝聚、信念激励等思想政治教育作用。在哈工
采用示范区绿地调查的方法,研究了再生水灌溉对北京地区有代表性的园林植物生长状况的影Ⅱ向,并采集植物叶片和立地土壤进行相关指标的化验分析。结果表明,再生水灌溉区植物生长
研制了一种应用于异型结构的防护材料,具有操作简单、可剥离、可循环使用等优点。采用耐盐雾、耐溶液浸泡、耐老化以及抗拉伸试验等方法对其性能进行了测试和评价,并介绍了其