基于分布式计算平台的web日志挖掘技术研究与应用

被引量 : 0次 | 上传用户:cbiba123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和云计算技术的飞速发展,人们越来越多地从云端获取服务。基于虹计划的教育云系统基于云计算技术,以Web为支撑,为用户提供教育相关服务。伴随着教育云应用的不断丰富,Web日志数据量也越来越大。海量的Web日志数据中蕴含大量的有用信息,一方面可以从日志中获取教育云的访问情况,另一方面通过数据挖掘算法,可以深度挖掘用户的访问喜好,获取潜在的价值。然而如何快速从海量的Web日志中挖掘有价值的信息,是当前面临的难题。传统的基于单机的Web日志挖掘系统和数据挖掘算法远远达不到目前的需求,基于分布式并行化环境的挖掘算法和挖掘系统成为必然的发展方向。Hadoop是开源的分布式平台,适用于大规模分布式计算,其核心模块包括MapReduce分布式计算框架和HDFS分布式文件系统。本论文主要针对传统数据挖掘算法在处理海量数据时遇到的瓶颈问题,对传统的数据挖掘算法进行改进并基于Hadoop分布式计算平台实现算法优化,使之适用于海量数据处理。基于教育云这一应用场景,通过后台的分布式技术支持,搭建日志分析系统,将优化后的算法应用在该系统中,快速分析用户使用情况并对用户行为进行预测,最终以可视化的界面呈现给系统管理人员。通过对大量文献的阅读和相关技术的研究,本论文对关联规则算法进行了并行化优化并应用在Web日志分析系统中。基于分布式计算平台的Web日志系统包括收集模块、分布式存储模块、预处理模块、分布式处理模块和可视化展示模块,通过搭建分布式集群对Web日志挖掘系统进行测试分析,对系统各个模块的功能进行了验证,并对算法的准确性和高效性进行了充分测试。测试结果表明,基于Hadoop的Web日志挖掘系统相比基于单节点的系统性能有了很大的提高,将改进的关联规则算法应用到挖掘系统中,准确率高且性能稳定。
其他文献
我国政府数据开放方兴未艾。政府数据的进一步开放其目的在于促进其有效利用,实现自身价值。政府数据价值研究对政府数据开放利用具有重要指示作用。藉此,基于当前政府信息资
<正>当我们从人与社会这个大视角上,了解李白对人生对社会真理的追求,对国家、对人民的热爱之后,再将注意转到人与自然这个大视角上,便会发现,李白的一生,是游历的一生,他追
会议
新型城镇化进程中,加强对新生代农民工的教育培训,提升其人力资本,是推进这一群体融入城市生活的有效途径,但调查发现,新生代农民工在培训信息、资金、人脉、教育等社会资源
<正>零售银行转型,战略规划是顶层设计、是方向指引。商业银行需从根本上建立"以客为本"的思想,突出战略转型的"价值化"和"生态化",构建以客户价值为依据的获客渠道、生态化
石油工业是我国国民经济的支柱产业,它的发展直接影响着我国经济的未来。21世纪以来,随着我国经济的快速发展以及我国加入WT0,我国国民经济进入了一个新的时代。经济全球化、
本文在高合金GDL-4工具钢的基础上,初步研究了添加钛元素对GDL-4材料性能的影响。并对新型含钛GDL-4高碳低合金钢的耐磨性与GDL-4高合金高速钢及传统的高合金高速钢W6Mo5Cr4V
RPID天线正向小型化、柔性化方向发展,传统制造技术已不能满足其要求,寻找具有低成本、高精度、柔性化等优点的天线制作技术具有重要的意义。目前,基于纳米金属墨水的喷墨印
在一个地区的经济社会发展中,公务员队伍无疑起着基础性作用,如何建立健全基层公务员激励机制,进一步激发基层公务员队伍活力,对促进乌拉特中旗经济社会发展具有至关重要的作
为了应对能源与环境危机,电动汽车产业在我国得到了迅猛发展。电动汽车电能补给配套建立的充换电站,成为电网中的一种新的负荷类型,其特点在于具有灵活的电力需求特性。由于
高中阶段的普通教育与职业教育都是高等教育的基础,但传统教育体系将二者人为地割裂开来,给学生的职业选择添置了许多障碍。本研究在上海市抽取296名高中生和287名职校生,通