基于Hadoop的用户行为分析系统的设计与实现

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:sam2009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展日新月异,计算机为人们的生活、工作带来了极大的便利,与此同时,由计算机自身产生的用户行为数据也呈指数级增长。如何从这些海量数据中分析出用户真正的需求与偏好,是当前非常有价值的研究。本文的主要工作:(1)建立数据清洗、行为日志解析和配置信息解析算法,实现数据预处理。该处理通过过滤关键字段错误的数据;制定数据补全规则,补全关键字段缺失的数据;计算并比较数据的MD5值,删除多次重复出现的数据等实现数据清洗,并利用JSON解析技术实现对行为日志和配置信息的解析,整理得到用户行为分析所需的数据。(2)基于Hadoop的Map Reduce计算框架,设计并实现了用户行为规律挖掘算法对用户进行行为分析,从而得到用户USB使用个数及时长、光驱或读卡器使用次数及时长、亮度平均调节次数、不同交互设备输入次数、模式使用时长及其切换频率等行为特征,为生产商优化设备提供数据支撑。(3)基于过滤式交互技术实现用户行为规律数据特征降维,缩小特征空间,并利用柱状图等直观展示抽象的用户行为规律数据,实现了数据可视化分析,使得用户行为规律特征更加清晰。同时在系统中加入权限管理,用户可以访问且只能访问被授权的资源,提升系统的安全性。
其他文献
目前,计算机网络的架构存在着无法快速部署和应用新的计算机服务的问题,主动网技术是人们针对现有计算机网络架构的不足提出的一个研究方向。本文在深入研究和分析主动网技术和
资源空间模型是面向网络资源的具有语义的模型,该模型基于网络资源的分类语义组织和管理资源.资源空间模型利用多维资源空间定位资源,用户在资源空间中浏览、共享和操作资源,
随着软件规模的增长和复杂性的提高,软件开发的规范化管理受到了越来越多的关注。为了有效地指导、支持规范化的软件开发过程,软件项目管理系统的使用越来越广泛。软件项目管理
学位
Web 服务的主要目标是在各种异构平台的基础上构建一个通用的与平台无关、与语言无关的技术层,各种不同的应用依靠这个平台实施彼此的连接与集成。Web服务组合是通过组合现有
随着现代电子技术的迅速发展,计算机技术、控制技术在汽车上的应用越来越广泛,使得汽车的内涵和功能不断拓展和延伸,汽车机电一体化、汽车电子化、智能化成为现代汽车的基本特征
基于数据的机器学习问题是现代智能技术非常重要的研究内容。现有的机器学习方法的重要理论基础之一是统计学,统计学研究的是样本数目趋于无穷大时的渐进理论,但在实际问题中,样
本文首先介绍了分布式系统和分布式数据库的概念,对比分析和研究了集中式数据库和分布式数据库的区别以及Unix下的Sybase数据库数据访问。然后结合分布式系统的特点和分布式应
随着计算机网络及通讯技术的迅速发展,越来越多的企业和个人利用网络实现各种商务活动的信息化和数字化,网上交易已经成为企业的共识。计算机技术和网络技术的飞速发展给构建高
语义Web服务就是在Web服务的基础上,增加语义描述信息,对Web服务的功能、输入输出参数及执行前提条件和执行后的效果进行语义描述。这些语义描述信息能够促使Web服务的自动发现
全过程计算机辅助动画自动生成技术,是一种将受限的自然语言文本自动转化为动画作品的技术。但是该项技术中角色姿态和运动生成存在瓶颈:无论是用图形学软件手工编辑,或用“