MapReduce在Web日志挖掘中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:moovent_chrisx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展与互联网用户的快速增加,Internet上的数据也呈爆炸式的增长。对于互联网提供商来说,这些海量数据中隐藏着大量有用的信息和知识,而这些信息和知识对分析用户的各项需求和评估产品的效果有着重要的意义。但是长期以来,海量数据的分析和处理都是一个艰巨而复杂的任务,高速准确的从这些海量数据中挖掘出有用的信息和知识,可以让互联网提供商在激烈的商业竞争中占领先机,从而获取商业上的成功与经济利益。在这些需要处理的海量信息中包括了存储于网站服务器上的用户访问Web页面的日志记录,从这些日志记录中分析和发现用户访问的规律和模式对互联网提供商有着重要的意义,它可以使Web站点的结构更为合理,更好的面向用户提供有针对性商业服务,优化用户体验。但是存在于这些日志中庞大的数据量和信息已经不是传统单机串行方式能够应对的了,这样一项新兴的技术-云计算进入了大家的视野。云计算作为一项新兴的技术,是网格计算、分布式计算、并行计算等技术相互融合的产物,它旨在将众多较为低端的计算实体整合为一个完美的系统,因而被众多IT巨头所看重,称为未来IT技术发展的一个重要方向。MapReduce编程模型作为云计算中的一项核心技术,是Google公司于2004年提出的,它提供了一系列简单而有强大的接口,通过这些接口,可以把大尺度的计算自动并发和分布执行,从而实现大规模分布式并行计算。Hadoop作为MapReduce的开源实现,一经推出就引起了广大IT厂商的注意,并得到了广泛的应用,具有很高的商业价值与应用前景。本文介绍了Web日志挖掘的整个过程,并对Hadoop平台相关技术与开发方法进行探讨,详细介绍了Hadoop分布式文件系统HDFS与Hadoop中的MapReduce框架,在前文的基础上对关联规则挖掘算法的重点研究。在通过研究了几种传统串行、并行关联规则算法,分析各自的优缺点之后,针对MapReduce编程模型的特点设计改进了基于划分的AprioriTid算法。在文章的最后,实现了基于Hadoop平台的Web日志挖掘过程,对改进的算法进行了编码实现,系统的进行了测试验证,对运行结果进行详细分析,从而证明了本算法的正确性、有效性,最后对工作进行了总结与对未来的展望。
其他文献
随着办公自动化的快速发展,越来越多的人喜欢用电子邮件进行交流。由于人们每天需要处理越来越多的邮件,所以迫切需要对邮件进行分类处理。与此同时,随着机器学习和数据挖掘
  本文对LINUX系统安全这方面做的研究。LINUX作为一个现代的操作系统,正在各个方面得到广泛的应用。LINUX在服务器、嵌入式等方面已经取得不俗的成绩,在桌面系统方面,也逐渐
机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大的作业无法完成。检查
随着知识经济的到来,人们对知识的需求显得越来越重要,由曹存根研究员主持的国家知识基础设施建设(NKI)集成了各学科的知识库,旨在实现“在恰当的时间,以恰当的语言、恰当的
近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是存在大量数据。可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。 关联规则是数据挖掘研究中的一
虚拟现实技术(Virtual Reality,就是大家熟悉的VR),又称为灵境技术,是20世纪末发展起来的一门涉及众多学科的高新技术,而随着硬件技术和网络技术的飞速发展,虚拟现实技术在IN
工程数据可视化是当今世界上工程应用中非常重要的一个环节,如何快速、高效的将工程数据进行可视化处理并提供给应用人员使用,是工程数据可视化需要解决的最主要的问题。如果
随着Internet技术的高速发展,企业内部及企业之间的相互联系日趋紧密,使得企业数据交换如同企业信息系统的动脉。高效而可靠的数据交换方式是企业提高商务效率、降低运作成本
本课题的目的主要是建立一整套的虚拟实验室环境,通过计算机采集技术,计算机控制技术和网络技术,为学生提供一个通过计算机操作和控制实验设备的平台,从而达到实验的目的,并进一步
在模糊控制器的设计过程中,如何获得好的模糊控制规则与隶属函数一直是个瓶颈问题。在传统的设计方法中,模糊规则和隶属函数一般是根据经验获得的,而且一旦设定,在控制过程中