MapReduce在Web日志挖掘中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：moovent_chrisx

【摘要】

：

随着Internet的迅猛发展与互联网用户的快速增加,Internet上的数据也呈爆炸式的增长。对于互联网提供商来说,这些海量数据中隐藏着大量有用的信息和知识,而这些信息和知识对

【作者】

：

张晓强

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2011年期

【关键词】

：

Web日志挖掘 MapReduce 关联规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅猛发展与互联网用户的快速增加,Internet上的数据也呈爆炸式的增长。对于互联网提供商来说,这些海量数据中隐藏着大量有用的信息和知识,而这些信息和知识对分析用户的各项需求和评估产品的效果有着重要的意义。但是长期以来,海量数据的分析和处理都是一个艰巨而复杂的任务,高速准确的从这些海量数据中挖掘出有用的信息和知识,可以让互联网提供商在激烈的商业竞争中占领先机,从而获取商业上的成功与经济利益。在这些需要处理的海量信息中包括了存储于网站服务器上的用户访问Web页面的日志记录,从这些日志记录中分析和发现用户访问的规律和模式对互联网提供商有着重要的意义,它可以使Web站点的结构更为合理,更好的面向用户提供有针对性商业服务,优化用户体验。但是存在于这些日志中庞大的数据量和信息已经不是传统单机串行方式能够应对的了,这样一项新兴的技术-云计算进入了大家的视野。云计算作为一项新兴的技术,是网格计算、分布式计算、并行计算等技术相互融合的产物,它旨在将众多较为低端的计算实体整合为一个完美的系统,因而被众多IT巨头所看重,称为未来IT技术发展的一个重要方向。MapReduce编程模型作为云计算中的一项核心技术,是Google公司于2004年提出的,它提供了一系列简单而有强大的接口,通过这些接口,可以把大尺度的计算自动并发和分布执行,从而实现大规模分布式并行计算。Hadoop作为MapReduce的开源实现,一经推出就引起了广大IT厂商的注意,并得到了广泛的应用,具有很高的商业价值与应用前景。本文介绍了Web日志挖掘的整个过程,并对Hadoop平台相关技术与开发方法进行探讨,详细介绍了Hadoop分布式文件系统HDFS与Hadoop中的MapReduce框架,在前文的基础上对关联规则挖掘算法的重点研究。在通过研究了几种传统串行、并行关联规则算法,分析各自的优缺点之后,针对MapReduce编程模型的特点设计改进了基于划分的AprioriTid算法。在文章的最后,实现了基于Hadoop平台的Web日志挖掘过程,对改进的算法进行了编码实现,系统的进行了测试验证,对运行结果进行详细分析,从而证明了本算法的正确性、有效性,最后对工作进行了总结与对未来的展望。

其他文献

中文邮件分类系统的研究及其实现

随着办公自动化的快速发展,越来越多的人喜欢用电子邮件进行交流。由于人们每天需要处理越来越多的邮件,所以迫切需要对邮件进行分类处理。与此同时,随着机器学习和数据挖掘

学位

Winnow中文邮件分类中文邮件语料库规则自适应

LINUX系统安全研究——基于LSM架构的MAC模块设计与实现

　　本文对LINUX系统安全这方面做的研究。LINUX作为一个现代的操作系统，正在各个方面得到广泛的应用。LINUX在服务器、嵌入式等方面已经取得不俗的成绩，在桌面系统方面，也逐渐

学位

系统安全LINUX系统嵌入式安全模块MAC机制

单机检查点系统平台相关性研究及性能优化

机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大的作业无法完成。检查

学位

机群系统容错检查点系统存储策略

基于本体的宗教知识获取

随着知识经济的到来,人们对知识的需求显得越来越重要,由曹存根研究员主持的国家知识基础设施建设(NKI)集成了各学科的知识库,旨在实现“在恰当的时间,以恰当的语言、恰当的

学位

国家知识基础设施宗教知识基础设施宗教领域知识获取本体宗教分类体系中间语义标记语言PADLSKCT

数值型多维关联规则挖掘研究

近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是存在大量数据。可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。关联规则是数据挖掘研究中的一

学位

数据挖掘关联规则多维关联规则聚类

基于VRML的铣削加工仿真的研究

虚拟现实技术(Virtual Reality,就是大家熟悉的VR),又称为灵境技术,是20世纪末发展起来的一门涉及众多学科的高新技术,而随着硬件技术和网络技术的飞速发展,虚拟现实技术在IN

学位

虚拟制造铣削加工算法四叉树剖分索引面

通用可视化系统研究

工程数据可视化是当今世界上工程应用中非常重要的一个环节,如何快速、高效的将工程数据进行可视化处理并提供给应用人员使用,是工程数据可视化需要解决的最主要的问题。如果

学位

可视化接口面向对象XML

基于ebXML的物流信息交换系统研究

随着Internet技术的高速发展,企业内部及企业之间的相互联系日趋紧密,使得企业数据交换如同企业信息系统的动脉。高效而可靠的数据交换方式是企业提高商务效率、降低运作成本

学位

ebXMLXMLEDI物流信息系统数据交换

虚拟通信实验室的研究与实现

本课题的目的主要是建立一整套的虚拟实验室环境，通过计算机采集技术，计算机控制技术和网络技术，为学生提供一个通过计算机操作和控制实验设备的平台，从而达到实验的目的，并进一步

学位

虚拟实验室LabVIEW信号采集计算机控制实验教学

遗传算法优化模糊控制器的研究

在模糊控制器的设计过程中,如何获得好的模糊控制规则与隶属函数一直是个瓶颈问题。在传统的设计方法中,模糊规则和隶属函数一般是根据经验获得的,而且一旦设定,在控制过程中

学位

模糊控制器遗传算法隶属函数模糊规则优化matlab

MapReduce在Web日志挖掘中的应用

与本文相关的学术论文