基于Hive数据仓库的用户行为模型研究

被引量 : 21次 | 上传用户:zy205806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步,人们在互联网上的信息交互变得越来越普遍,通过服务器的日志反馈机制,已经能很方便记录下用户的行为轨迹,在交互过程中产生的海量数据中,蕴含了非常多有价值的信息。面对快速增长的PB级海量数据,需要有效的收集,存储,分布式计算以及数据挖掘,才能充分发挥大数据的价值。本论文课题来源于作者参与的实验室和某互联网公司的合作项目,是基于数据仓库技术和Hadoop运算平台,通过改进k-means聚类算法对用户行为进行研究,主要包括以下内容:(1)对Hadoop分布式系统基础架构以及数据仓库体系进行了介绍,通过Hbase的分布式存储和mapreduce的分布式计算,可以实现海量数据的高效处理与分析,在此基础上,对现有的音乐数据仓库体系结构进行详尽的分析,包括体系结构,ETL过程,主题划分,维度表结构等,以及音乐元数据管理系统的框架设计。(2)对各类聚类分析算法进行了介绍与比对,在考虑Hive音乐数据仓库的数据量和时效性等特点后选取了K-means算法,并在流量清洗,初值选取,孤立点去除3方面算法优化与改进。并通过Hadoop集群的平均运行时间与算法迭代次数来进行性能分析与算法评估,优化后效率提升约45%,在实际工作中已可用。(3)通过数据仓库用户行为多维模型的聚类分析,从用户层面来帮助分析人员得到更为精确和有效的产品评价指标和用户评价指标,主要在整体用户质量评价,活跃用户二次聚类分析,用户质量历史轨迹图这三方面,充分对用户簇集进行数据挖掘,为产品运营提供决策,有助于音乐企业及时地掌握和研究用户的总体变化,为不同类型的音乐用户提供更有针对性地个性化服务,最终增大音乐企业的利润和市场份额。
其他文献
当直流输电系统的接地极电流通过变压器中性点流入变压器绕组时,会引起损耗增加、温升增加、振动加剧,甚至损坏变压器等后果,继而影响整个电力系统的安全。随着全世界范围内大容
政府补助作为政府宏观调控的一种重要政策工具,对企业行为产生了重要的影响。2008年受金融危机冲击,市场需求萎缩,企业效益下滑,投资支出下降,经济增长下行压力增大,中国政府
我国建立的新型农村社会养老保险制度已成为社会保障制度的主要内容。河南省还没有全面建成新型农村社会养老保险制度,为了适应市场经济与城市化进程的速度,河南省需要不断的
改革开放30多年来,我国的经济在不断地腾飞,建筑行业也呈现出一片蓬勃发展的景象,随着人们对建筑功能性和艺术性的要求不断提高,各种超高层以及大跨度结构形式逐渐涌现出来。
聚碳酸酯(PC)具有良好的常温力学性能、尺寸稳定性、耐热性、阴燃性和电绝缘性,是五大工程塑料之一。但是PC低温韧性差和对厚度和缺口的敏感性,使其应用受到了限制。在PC中添
混凝土是工程建筑中非常重要的结构材料,它的质量直接关系到建筑结构的安全性和耐久性。因此,对混凝土质量进行检测和控制就显得尤为重要。本文从超声检测的物理基础出发,详细分
随着互联网技术的迅速发展,我们可以接触到越来越多的信息,但信息的飞速增长却使得信息的利用率降低,个性化推荐系统是为了解决此问题而提出的一种智能系统。近年来,随着在实
随着世界经济的不断发展,不同文化间的交流日益频繁。在此背景下,语言的学习已不仅是掌握一门语言本身,而是需要将其作为一种交际手段来学习。交际行为在很大程度上取决于文化,与
免装配设计具有简化结构、减小体积和质量、无需装配等诸多优点,具有广阔的发展前景。3D打印技术的兴起为免装配设计带来了新的发展机遇,免装配设计理论与方法研究显得更为迫切
语文课堂练习作为语文教学的一个重要部分,是强化和提升课堂教学效率的重要手段。语文课堂练习教学的好坏对语文课堂教学质量高低有直接的关系,并且影响着学生学习语文的兴趣