论文部分内容阅读
随着互联网技术不断快速深入发展,许多大型企业、机构及政府部门持续获得了各种海量Web日志数据,而Web日志中记录了用户的行为及具体的消费情况,对网站的建设及特定商品的推广并提供精确的服务具有非常重要的指导意义。当今对Web日志分析的要求是持续变化和增加的,同时在分析Web日志时也要求具有一定的快捷性和准确性,然而如何预处理海量日志,如何存储海量数据,如何获取有效的信息成为学术界和商业界重点研究的内容。现今,人们的生活离不开网络,而生活中的各种需求基本上都是通过访问网站来实现,因此各个企业为了获得用户的显性需求和隐性需求,深入挖掘用户的网络行为习惯已形成一门重点关注的学科。因为访问网站的用户越来越多,所产生的数据也迅速增长,如何预处理和存储海量数据,并从中获取有效的数据成为了另一个挑战。根据人们的研究成果,目前基于Hadoop的相关技术是解决大数据问题最适合的方法和工具。原始Web日志中的数据是不一致的、缺陷的、含有大量脏数据和噪声,假如不通过数据采集和预处理过程对其进行过滤和筛选,会使数据分析阶段的工作量增大,甚至可能造成错误的结果。所以,在对数据进行分析之前应先对Web日志实行采集和预处理操作。每天电信系统都会产生海量的Web日志数据,单节点数据处理和传统的关系型数据库已不能满足其需求,对于怎样存储海量电信数据成为必要的研究课题。Web日志的挖掘需要通过算法来实现,因此算法的选取和设计也是关键之处。本文对基于电信系统的Web日志进行研究,其内容主要包含以下几点:1)Web日志的采集预处理Web日志采集和预处理是Web日志挖掘的前提条件,其作用是为后续数据分析提供准确的日志文件。而原有的Web日志中存在大量噪声和不一致的信息,因此对其进行采集和预处理操作是很有必要的。然而,随着用户访问数量的急剧增长,大量高并发的数据给Web预处理操作带来了巨大的挑战。本文提出了一种基于MapReduce的Web日志预处理机制,能更好的提高日志数据采集预处理阶段的效率,并最大限度的利用计算机硬件资源,从而降低不必要的资源浪费。2)Web日志的数据存储由于电信用户和网站的访问量在不断增加,Web日志也在每日剧增,传统的数据存储技术存在成本高、运行繁杂、扩展性极低等诸多不足。本文将采用HDFS和Hbase的组合来实现,并充分利用Hadoop集群的分布式存储优势。3)电信系统日志挖掘及聚类算法的改进数据挖掘作为大数据技术的核心问题之一,面临着计算复杂度高和计算能力不足等问题,本系统中应用了一种基于Hadoop的分布式改进聚类算法即CFK-means聚类算法。本算法是对K-means聚类算法的一种改进,本文通过实验结果阐明该聚类算法具有良好的可移植性和准确性。本文通过搭建一个模拟电信系统日志分析大数据平台,验证MapReduce并行化在Web日志采集和预处理阶段的高效性,HDFS和Hbase组合在数据存储中的高扩展性,通过多次对比实验结果分析,验证本文中CFK-means聚类算法的准确性和快捷性。本文通过对电信系统的日志分析,挖掘出用户的行为信息,通过分析用户访问网站的行为特点,帮助电信运营商制定合理的套餐和推荐信息。