基于大数据中查询日志的用户行为分析系统的设计与实现

来源 :北京交通大学 | 被引量 : 11次 | 上传用户:wjln123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和发展,人们之间通过网络来进行信息交流逐渐频繁,然而,如何进行有效的信息检索随之成为网民面临的难题之一。搜索引擎通过将杂乱无序的信息组织起来,建立有序的索引文档,为人们进行有效的信息检索提供了极大的方便。用户与搜索引擎交互的过程中会产生了大量的查询日志。这些用户查询日志中包含着许多和用户相关的信息,可以直接捕捉到用户的显性需求并发掘其隐性需求,因此对用户日志的研究越来越引起人们的关注。用户查询日志受到各大互联网公司尤其是搜索类的互联网公司的重视,它们都期望通过精准及时的日志分析和挖掘来发现用户的行为特征,以此提高用户使用的满意度,进而提升企业的市场竞争力。另一方面,随着日志数量指数式的增长,如何有效快速地处理大量的日志成为一个挑战,这对于传统的数据库的存储模式和服务器的计算性能都是考验,而Hadoop是一个能够对大量数据进行分布式处理的软件框架。利用分布式技术存储并计算海量日志,使得对查询日志的研究变得更加方便。基于以上现状并阅读大量参考文献后,本文通过对搜索引擎日志产生的过程进行详细分析,以Hadoop为平台,运用HDFS分布式文件系统存储海量日志并采用MapReduce计算模式,设计了一个基于海量查询日志的用户行为分析平台,主要包括四个模块,即日志采集模块、日志存储模块、日志分析模块和数据可视化模块。其中,日志分析模块为整个系统的重点,主要从关键字排名、URL排名、主机排名、用户搜索统计、时间段统计、日搜索统计六个维度对搜索日志进行了分析,并以Web文本挖掘的流程为思路对用户查询日志进行挖掘。最后,通过搭建实验环境来验证本平台,分析了分布式平台的运行效率,对系统平台进行性能优化,并对优化前后系统运行耗时进行了对比分析。通过实验数据表明,论文中所设计的基于查询日志的用户行为分析系统具有良好的有效性和可靠性。
其他文献
在汉语中,"学科"一词古已有之,但原指科举考试的科目。现代意义的"学科"来自日本,最早见于启蒙思想家津田真道的一份手稿。手稿刊印后"学科"一词得以流行。后来哲学家井上哲
<正>~~
期刊
结合工程实例,对装配式建筑钢结构设计中的梁-柱节点设计、连接结构设计等方面进行分析,期望能够给相关领域技术人员提供一定的理论参考。
本文分案例和案例分析两大部分。 案例部分简介了中国平安保险公司。平安引入了寿险营销制,使其成为寿险产品销售的主要方式,同时也带来销售队伍极其不稳等问题。随着市场环
现代汉语中,英语electricity对应的术语是电、电学。electricity从最初传入到概念完全被接受,经历了概念之中的不同属性特征“琥珀”“雷电”及“无处不在”的接受过程,同时
简单介绍了热喷铝防腐技术在模块化工厂管廊结构中的应用,分析了施工过程中的一些关键因素,并对热喷铝技术的一些新发展和应用情况提出了见解。
某长江公铁大桥收费站屋盖采用钢管组合空间矩形桁架结构,桁架形状根据建筑曲线找形。设计采用圆钢管相贯焊接节点,柱脚采用外露和外包混合式柱脚。采用3D3S14.1和Midas Gen
“重心”和“形心”是两个科学术语。它们的出现比较早,前者出现于1623年的《职方外纪》,后者出现于1627年的《奇器图说》。两个词都来自拉丁语,分别是centrum gravitatis和c
介绍了2006年第43届国际风景园林师联合会(IFLA)国际学生设计竞赛三等奖作品的详细内容。选取温州三垟湿地为研究对象,汲取道家对于生命和宇宙规律的认识,对水文周期、动植物生命
垃圾分类政策的推行对城市环境治理具有重要意义。基于政策扩散理论构建主体和情境维度的分析框架,运用清晰集定性比较分析方法,对42个试点城市的垃圾分类政策扩散效果进行比