基于Hive的日志分析系统的实现与优化

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:dandu10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动智能终端的快速普及促进了移动互联网的发展,人们对移动端应用和服务的需求也越来越多,互联网公司、电商平台以及传统服务业都积极将业务重心转向移动端,以满足用户对相关服务日益增长的需求。同时,这些服务提供商收集到了海量的用户行为日志,对这些日志进行分析,可以获取用户信息、用户行为轨迹,进而掌握用户特征、喜好等信息,能够更有针对性地为不同特征的用户提供个性化服务,提升用户体验,最终提高其市场占有率。面对日益增长的TB甚至PB级的用户行为日志,传统数据处理技术已经无法满足海量数据存储和处理的需求,Hadoop分布式系统的出现成功解决了这个难题。论文针对某移动互联网公司的海量日志分析需求,以Hadoop分布式系统为基础,结合传统的数据处理技术,深入研究了基于Hive的日志分析系统的海量数据处理方案,并根据业务需求对系统进行优化。本文首先介绍了大数据背景下海量日志分析系统中的关键技术,包括Hadoop分布式文件系统HDFS、分布式计算框架MapReduce和Spark、数据仓库Hive和数据迁移工具Sqoop等,以及常见的大数据平台的系统架构及其优势。其次,根据实际业务需求,对基于Hive的日志分析系统进行研究,并分析了海量日志处理流程和系统性能,以找到系统的性能瓶颈,针对系统架构、业务需求和数据特点,从系统架构、数据集成、数据存储和数据处理等方面对系统进行优化。最后,探讨了系统优化方案,并测试系统优化后的性能,验证了系统优化设计的可行性和有效性。
其他文献
由于中职英语的教学质量目前不容乐观,必须要改变这种状况。本文分析了原因,并作出了相应的对策,指出如何提高学生英语成绩,提高英语教学质量。
计算机虚拟化已经成为当今计算机硬件发展的重要方向,其中桌面虚拟化技术最有应用前景。桌面虚拟化要求的硬件集中化,并非简单地向大型主机时代回归,而是通过利用硬件群的规
目的探讨原发性肝细胞肝癌(PHCC)血供方式的CT表现其及病理学基础,以提高影像诊断准确性。方法回顾性分析经手术病理证实的70例原发性肝细胞肝癌的CT表现,并与病理结果对照研
在传统乡村社会中作为治理精英的乡绅却在近代"废科举、兴新学"和"乡村自治"的过程中丧失精英地位。乡绅衰落的原因是:丧失文化权威而与下层民众疏远、传统精英流动渠道消失
<正>作为招投标管理局交易中心,评标专家名单本应是招投标环节中最应当保密的环节之一,但是总有心怀不轨的投标人期望在评标专家名单上做手脚,企图影响评标环节的公正性,由此
<正>幼儿园教师备课是教师对幼儿一日活动组织与实施的前期准备,是对保教过程或具体细节的总体策划和设计。科学合理地设计一日活动是促进幼儿有效学习和主动发展的基本保障,
<正>日前从全国电子竞技运动会(CEG)获悉,我国电子竞技运动走向职业化的步伐不断加快,各地方队的改制和俱乐部建设工作已经基本落实。到上月底,10家由地方企业支持建立的职业
<正>以往人们对电竞外设的概念,基本只包括三大件:鼠标、键盘、耳机。2013年,GUNNAR品牌的崛起,把这个概念扩展到了眼镜的范畴。电竞游戏对玩家最大的损耗在两个方面,一是手
期刊
<正>绘本是一种用图画与文字共同讲述一个完整故事的读本,它是通过图画与文字这两种媒介在两个不同层面上交织、互动来讲述故事的一门艺术表现形式。而绘本数学教学就是通过
破伤风病是在生产中常见的一种人畜共患疾病,往往由于对该病缺乏足够的认识,而疏于防护导致了感染破伤风,又因为对破伤的症状不能鉴别诊断又延误了治疗时机从而给养殖户带来了不