论文部分内容阅读
随着Internet的迅猛发展与互联网用户的快速增加,Internet上的数据也呈爆炸式的增长。对于互联网提供商来说,这些海量数据中隐藏着大量有用的信息和知识,而这些信息和知识对分析用户的各项需求和评估产品的效果有着重要的意义。但是长期以来,海量数据的分析和处理都是一个艰巨而复杂的任务,高速准确的从这些海量数据中挖掘出有用的信息和知识,可以让互联网提供商在激烈的商业竞争中占领先机,从而获取商业上的成功与经济利益。在这些需要处理的海量信息中包括了存储于网站服务器上的用户访问Web页面的日志记录,从这些日志记录中分析和发现用户访问的规律和模式对互联网提供商有着重要的意义,它可以使Web站点的结构更为合理,更好的面向用户提供有针对性商业服务,优化用户体验。但是存在于这些日志中庞大的数据量和信息已经不是传统单机串行方式能够应对的了,这样一项新兴的技术-云计算进入了大家的视野。云计算作为一项新兴的技术,是网格计算、分布式计算、并行计算等技术相互融合的产物,它旨在将众多较为低端的计算实体整合为一个完美的系统,因而被众多IT巨头所看重,称为未来IT技术发展的一个重要方向。MapReduce编程模型作为云计算中的一项核心技术,是Google公司于2004年提出的,它提供了一系列简单而有强大的接口,通过这些接口,可以把大尺度的计算自动并发和分布执行,从而实现大规模分布式并行计算。Hadoop作为MapReduce的开源实现,一经推出就引起了广大IT厂商的注意,并得到了广泛的应用,具有很高的商业价值与应用前景。本文介绍了Web日志挖掘的整个过程,并对Hadoop平台相关技术与开发方法进行探讨,详细介绍了Hadoop分布式文件系统HDFS与Hadoop中的MapReduce框架,在前文的基础上对关联规则挖掘算法的重点研究。在通过研究了几种传统串行、并行关联规则算法,分析各自的优缺点之后,针对MapReduce编程模型的特点设计改进了基于划分的AprioriTid算法。在文章的最后,实现了基于Hadoop平台的Web日志挖掘过程,对改进的算法进行了编码实现,系统的进行了测试验证,对运行结果进行详细分析,从而证明了本算法的正确性、有效性,最后对工作进行了总结与对未来的展望。