论文部分内容阅读
随着互联网和云计算技术的飞速发展,人们越来越多地从云端获取服务。基于虹计划的教育云系统基于云计算技术,以Web为支撑,为用户提供教育相关服务。伴随着教育云应用的不断丰富,Web日志数据量也越来越大。海量的Web日志数据中蕴含大量的有用信息,一方面可以从日志中获取教育云的访问情况,另一方面通过数据挖掘算法,可以深度挖掘用户的访问喜好,获取潜在的价值。然而如何快速从海量的Web日志中挖掘有价值的信息,是当前面临的难题。传统的基于单机的Web日志挖掘系统和数据挖掘算法远远达不到目前的需求,基于分布式并行化环境的挖掘算法和挖掘系统成为必然的发展方向。Hadoop是开源的分布式平台,适用于大规模分布式计算,其核心模块包括MapReduce分布式计算框架和HDFS分布式文件系统。本论文主要针对传统数据挖掘算法在处理海量数据时遇到的瓶颈问题,对传统的数据挖掘算法进行改进并基于Hadoop分布式计算平台实现算法优化,使之适用于海量数据处理。基于教育云这一应用场景,通过后台的分布式技术支持,搭建日志分析系统,将优化后的算法应用在该系统中,快速分析用户使用情况并对用户行为进行预测,最终以可视化的界面呈现给系统管理人员。通过对大量文献的阅读和相关技术的研究,本论文对关联规则算法进行了并行化优化并应用在Web日志分析系统中。基于分布式计算平台的Web日志系统包括收集模块、分布式存储模块、预处理模块、分布式处理模块和可视化展示模块,通过搭建分布式集群对Web日志挖掘系统进行测试分析,对系统各个模块的功能进行了验证,并对算法的准确性和高效性进行了充分测试。测试结果表明,基于Hadoop的Web日志挖掘系统相比基于单节点的系统性能有了很大的提高,将改进的关联规则算法应用到挖掘系统中,准确率高且性能稳定。