基于PU学习的分布式移动互联网流量分析与预测

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:jerklie198091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动通信技术的发展和移动终端的普及,移动用户数量激增,数以亿计的用户每天产生海量的移动流量记录。如何对如此大量的数据进行高效和准确的分析,从而充分理解移动互联网流量特性,掌握移动用户的上网行为,为用户提供更加优质的移动网络服务,成为了移动运营商和互联网内容提供商都非常关心的研究课题。本文研究通过分布式大数据处理技术和机器学习方法相结合的方式来对海量移动互联网流量数据进行分析和预测。重点研究了其中的两个问题,一个是移动用户和服务器的交互行为预测,另一个是移动视频流量识别。通过分析发现,这两个问题都有着相同的特性:都可以当做二分类问题来处理,以及数据都只有少量正例样本和大量无标记样本。因此,本课题尝试利用在文本分类问题中使用较多的PU学习算法来解决。本文的主要创新点如下:(1)针对移动用户和服务器交互预测问题,设计了 194维的特征来表征每一条用户和服务器连接记录,并提出了改进的基于Spy的PU学习算法。在Spark平台上,基于MLlib机器学习库设计并实现了基于K-means的PU学习算法、基于Biased-SVM的PU学习算法以及改进的基于Spy的PU学习算法。通过在真实移动流量数据上的实验,验证了基于PU学习算法来预测用户的服务器交互行为具有良好的性能。(2)针对移动视频流量识别问题,设计了 105维的特征向量来表示每一条移动流量记录,并从真实的移动流量数据中过滤了部分移动视频相关的数据作为该任务的实验数据集。通过实验分析了 Spark平台上设计并实现的三种PU学习算法的性能,验证了基于PU学习算法进行移动视频流量识别具有较好的准确性。这对于更加高效准确地对移动互联网流量进行分析,提升网络服务质量具有很大帮助。
其他文献
目的研究出生前后不同浓度慢性铝暴露后年轻大鼠海马NO含量和nNOS表达的变化,探讨铝损害学习记忆的突触机制。方法对照组、低剂量和高剂量组大鼠从孕期开始分别自由饮用蒸馏
本课题主要研究了经编内衣面料的组织结构和起花可能性,并进一步探讨了经编内衣面料的设计方法,对经编内衣面料的产品开发具有一定的指导意义。论文首先简单回顾了内衣面料特
为了更好地了解三甲医院图书馆信息资源的利用现状,该文对近些年三甲医院的图书馆现状进行简要分析,提现加强三甲医院图书馆信息资源服务质量的有效措施,希望可以为今后相关
<正> 乡村民间风味小吃——蜜味冰粉冰粉,是夏令时节消暑的风味小吃。所需原料来源于种植一年生草木茄科植物——冰粉果(假酸浆)的籽料。它含有极丰富的可溶性物质——天然果
期刊
工程结构材在生产生活中应用的越来越广泛,而板材密度是影响工程结构材物理力学性能及其整体性能的重要指标,寻求一种快速、在线、无损的板材密度在线检测方法,是监控单板层
目的观察痰热清注射液联合抗生素治疗淋巴瘤合并肺部感染的临床疗效。方法64例淋巴瘤合并肺部感染患者随机分为观察组(A组,n=32例)与对照组(B组,n=32例),对照组单用敏感抗生素治疗,观
耿村,被称为“中国第一故事村”,自20世纪80年代开始就受到政府和学者的广泛关注,先后有67人被确定为大中型故事家。而随着现代化浪潮和新技术成果波及到山野村庄,耿村的民间故事
云会计作为一种新型的会计信息化实施模式,对中小企业的会计信息化进程会产生较大的影响。从会计信息化的建设和应用层面深入地分析了云会计对中小企业会计信息化的影响,指出
大数据时代信息技术发展、数据观念改变。社会经济统计学教学应以数据为导向,以培养统计思维为目的,从人才需求情况出发,进行变革。
大学生公民意识教育从本质上说是一种意识教育,是高校思想政治教育的重要组成部分。党的十七大报告强调,应加强公民意识教育,树立社会主义民主法制、自由平等、公平正义理念,