面向海量移动互联网用户行为的聚类算法研究与实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:mustang2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的普及与移动通信技术的快速发展,移动互联网用户正迅速增多,人们平均每天花费在移动互联网上的时间也在逐渐增长。海量移动互联网用户在进行网上浏览时会产生大量的用户行为数据。通过对用户行为数据进行深入分析与挖掘,发现其中隐含的互联网用户行为规律,对移动互联网业务的建设与规划具有重要意义。聚类算法往往是对未知数据进行分析与挖掘的第一步,面对海量移动互联网用户行为数据,如何选择高效准确的聚类分析算法是当下研究的热门课题之一。本文的主要工作内容包括以下四点:第一,本文基于采集到的移动互联网用户行为数据对用户进行了总体分析与上网喜好分析。依据分析结果,本文将移动互联网用户访问的网站划归为12个大类,并从1 2类网站的访问流量,请求次数,请求时间出发,构建了一种移动互联网用户行为模型,且基于该模型生成了全新的移动互联网用户行为数据集。第二,本文重点研究了三种经典的聚类算法。面对移动互联网用户行为数据集维度高、数据量大的特点,本文基于分布式计算框架Spark实现了对三种算法的并行化改进。第三,通过对三种改进算法的外部评价指标,内部评价指标以及分布式计算加速比进行对比实验与结果分析,本文选取了效果最优的聚类算法,并基于该算法对海量移动互联网用户行为进行了简要分析,最后将算法进行了系统集成与落地。第四,面对线上源源不断的高速数据流环境,本文研究并实现了一种基于Spark Streaming的流式聚类算法,并对算法的参数选择与聚类结果进行了简要分析。本文的移动互联网用户行为数据均来源于我国某省真实的用户上网话单数据,用户的聚类分析结果与实际情况相符合,对该省移动互联网业务的规划与发展具有重要意义。
其他文献
探讨口腔修复学课程设置的合理性以及教学方法的改革实践所达到的效果。在合理重置教学内容基础上,应用立体化、多载体教学手段,完善临床实习带教模式。结果表明,对修复学课
<正> 如何合理编制、正确运用统计表,充分发挥它在医学论文中的数量资料表达作用,使人们读后易得要领、易于分析,是每位作者的基本功。一、统计表的概念及其作用把统计分析的
阅读首先要激发学生的阅读兴趣,让学生充分地读,在读中整体感知,在读中感悟语言,在读中培养语感,在读中陶冶情操。其次良好的阅读习惯十分重要,要重视培养学生良好的阅读习惯
<正>橡木桶的起源于17世纪 ̄18世纪。当时,法国人生产的葡萄酒都是通过航运的方法出口到其他国家,但由于战争原因,贸易被迫中断,葡萄酒因变质而损失惨重。于是,一些商人通过蒸
储量丰富、清洁无污染的潮流能近年成为人类研究开发的热点。西方发达国家在潮流能利用技术方面处于领先地位,已经进入商业化运行前期阶段。文章综述了国内外潮流能技术开发
<正>桂枝加厚朴杏子汤首载于《伤寒论·辨太阳病脉证并治》第18条"喘家作,桂枝汤,加厚朴、杏子佳"与第43条"太阳病,下之,微喘者,表未解故也,桂枝加厚朴杏子汤主之[2]"。方由
通过确定学生公选课情况的影响因素,对福建某高校发放问卷调查,并采用多个独立样本的x2检验、列联相关分析、Goodman—Kruskal相关测量等非参数检验方法,主要就学生公选课出勤状
目前我国巴氏奶与常温奶的发展极不协调,通过对巴氏奶的生产加工工艺的分析,指出巴氏奶在我国发展受到制约的各种原因,与国内外乳业巴氏奶发展状况进行对比,巴氏奶在我国有着
借助循证医学的方法,根据临床上3例患者的治疗方案,对美国眼科学会于2016年发布的临床指南中原发性闭角型青光眼及其疑似患者的管理进行回顾性总结和探讨。针对临床上最为常
构建国家空间规划体系是我国推进生态文明建设的客观要求,也是实现国家治理体系和治理能力现代化的重要路径。“双评价”(资源环境承载能力评价和国土空间开发适宜性评价)是