基于无线网络流量的用户移动性分析与应用

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:wuyongliang0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的飞速发展以及无线网络的大范围部署,无线网络改变了人们获取信息的方式,同时产生了丰富的、有价值的无线网络流量数据。理解无线网络流量中蕴含的用户移动行为,具有广泛的应用需求和应用价值。然而,从无线网络流量深入且全面地认识用户移动行为特性存在诸多挑战。一方面,用户身份缺失、多业务间数据孤岛等现象的存在,使研究人员难以获取用户接入无线网络时准确且完整的行为数据。另一方面,已有研究工作采用的数据集大多具有测试用户少、特征单一的缺点;并且尚未综合多种时空上下文信息,分析用户移动行为的时空特性,发现不同预测模型针对不同类型用户群预测性能的差异。此外,将用户使用在线内容服务时的浏览行为和移动位置数据相结合,探索位置对上网浏览行为的影响的研究也非常有限。本文针对基于无线网络流量展开用户移动行为分析的难点,首先创新性地设计实现了一种跨服务域的、通用的用户身份关联系统;利用大规模城市中大量用户的无线网络流量数据,分析了不同时空上下文信息对用户时空移动行为预测的影响,探索了时空预测模型和下一位置预测模型对于不同人群预测性能的差异,并挖掘用户的移动行为对其上网浏览行为的影响。本文的主要研究内容和创新点如下:1、设计实现跨服务域的用户虚拟身份识别与关联系统。网络时代的到来为人类提供了丰富的在线内容服务,人们在使用在线内容服务时都会被要求主动注册或者被动分配一个标识,这个标识被称为用户虚拟身份。由于同一用户多个服务的虚拟身份间没有直接的关联关系,一个真实用户被映射成多个标识出现在网络空间,完整的用户行为被割裂和分离。为解决此问题,本文构建了通用的、跨服务域的用户身份关联算法及其系统平台,平台具有如下特色:(1)提出了一种新颖的、融合了精确关联和基于概率关联的模型——VISD (Virtual Identity Linkage Cross Service Domain)模型。基于概率的关联方法将虚拟身份关联的问题定义为二分类问题,并通过非监督的基于用户行为特征的函数对二分类结果进行了优化,获得了较高的准确率和覆盖率。VISD模型算法简单,易于推广。(2)基于概率关联的模型依赖用户广泛的上网行为,通过定义多维度的指标充分量化了虚拟身份间上网行为的相关性和相异性。特征不依赖于特定服务域,具有普适性,可对多种服务进行应用推广。(3)用于评估的实验数据集来自不同的网络环境,充分验证了模型的有效性。此外,每个实验数据集均是长时间采集的、覆盖百万真实用户的上网流量数据。数据集中包含多种多样的业务,业务属于多种服务域,比如社交、视频、搜索、购物等。2、基于上下文的用户移动行为的时空特性分析。移动上下文提供了描述用户当前移动现状的信息,从移动行为的上下文信息入手,探索用户移动的时空特性,对于挖掘用户移动行为的本质特性,以及构建更合理的用户移动性模型具有指导意义,并且可以为移动性行为预测提供可靠方案。本文首先验证了使用无线网络流量数据分析用户移动性的可靠性。随后,从用户的历史轨迹中提取用户移动行为的空域上下文信息和时域上下文信息,分析不同时空上下文对用户群未来移动行为预测的影响,并得到一些有意义的结论。例如,(1)在研究移动行为预测时,将时域和空域的上下文信息融合更容易过滤一些冗余信息,获得较高的预测准确率;(2)考虑过多的时空上下文信息会导致过度拟合,影响用户位置预测的准确率,而仅考虑当前位置和前一个访问位置这两个空域上下文信息的预测模型,有较高的准确率和鲁棒性;(3)考虑时域上下文信息的预测模型,对于那些移动行为模式比较固定的用户群有更好的性能。3、构建基于兴趣点的用户移动性预测模型。当前研究主要关注两类移动模型:时空预测模型和下一位置预测模型。在为用户部署任何一种模型时,不同用户呈现了不同的预测性能。对于特定用户,某种模型可能会有很差的预测准确率。本文提出基于用户的兴趣点,构建高效的基于HMM (hidden Markov model,隐马尔可夫模型)的时空移动性预测模型和下一位置预测模型,并利用熵值量化了用户的生活习惯,评估不同预测模型针对不同生活习惯的用户群预测性能的差异,从而针对不同用户群构建灵活高效的移动性预测模型。通过广泛的实验分析,我们得出了一些有意义的结论。(1)基于HMM的用户移动性预测模型的性能,要优于已有模型;(2)移动性预测模型的预测准确率依赖于用户的生活习惯,对于那些历史移动轨迹较短或者有固定移动模式的用户群,时空预测模型的性能更好;(3)对于那些移动模式随机性强的用户群,下一位置预测模型能够呈现更好的预测性能;(4)研究用户移动性预测时,用户的历史移动轨迹长度和熵值是两个重要的因素,这两个因素能帮助部署人员选择针对该用户最优的移动性预测模型,以达到可靠的预测结果。4、研究用户上网浏览行为的地理空间特性。位置已经成为无线网络流量以及在线内容服务的一个重要因素。尽管已有很多研究关注线上社交关系的空间特性,但深入探索在线内容浏览行为和用户位置信息关系的研究却非常有限。为了增加从空间角度对人类日常浏览行为的认识,本文将用户使用在线内容服务时的浏览行为和用户的移动位置结合,从地理区域和单一用户两个层面,探索了在线内容服务的浏览行为的空间特性。首先基于LDA (Latent Dirichlet Allocation,潜在狄利克雷)模型分析了城市范围内不同地理位置区域的浏览行为模式,探索了不同区域浏览行为模式的差异和相关性。随后,提出了一种基于多层网络模型(Multilayer Network)的分析方法,研究用户间的距离如何影响具有相同内容浏览行为用户的空间分布。为了获得在线内容浏览行为空间特征的共性和特性,我们对三个不同的在线内容服务的网络流量进行了综合分析,发现了一些有意义的结论:在某种程度上,具有相似在线浏览兴趣的用户在地理位置上是聚集的,且不同类型的服务呈现出不同程度的地理空间特性。这些结论能够被引入多种实际应用,如基于地理位置的精准营销、内容存储和缓存等。
其他文献
脱贫攻坚是一场必须打赢打好的硬仗,是我们党向人民作出的庄严承诺。一诺千金,拷问着担当、考验着能力、检视着作风。在决战决胜全面建成小康社会的关键时期,市委、市政府召开这
报纸
介绍了采用UASB—CASS处理乳制品综合废水的工艺,并由监测结果进一步论证了其处理工艺合理、效果稳定的特点,其CODCr、BOD5、SS去除率分别达到96.4%、98.8%和83%,CODCr、BOD5
建立复杂圆管带式输送机的有限元模型,提出长距离管带机悬垂度分析的代表性单元法,并试验研究管带机胶带的力学特性。仿真模拟了管带机在给定张力和物料密度条件下的变形、应
随着社会经济的成熟和发展,会计行业也成为了当今社会的"香饽饽"。通过轮岗制度不仅能够提升会计工作的效率和标准,还能对会计工作内容的有力监管。文章就会计轮岗制度的出现
高速公路事业单位的固定资产管理是高速公路财务管理的重要组成部分,因而加强固定资产管理对于财务管理极为重要。高速公路事业单位的固定资产是指单位价值在2000元以上,使用
<正>无论是业务构成还是利润来源,苹果和三星都更像是手机生产商,虽然在摩托罗拉、诺基亚等手机巨头相继倒下后,它们趁势上位,但在近期,这两家公司都面临来自中国手机厂商的
<正>今天这个论坛的地点和形式就体现了创新,当年海上丝绸之路,广东是发源地,一个是番禺,一个是徐闻,这就是海上丝绸之路的发祥地,最早的出海港。我想东涌这个地方,跟海上丝
<正>自出生以来,杰夫·贝佐斯就已注定不平凡。在他的一生中有两个对他产生重要影响的男人:一个是他的继父,给了他家庭的温暖;另一个便是他的外祖父,为他奠定了成功的基础。"
随着我国现代化进程的逐步推进,一系列能够显著改善并优化人们生活质量的技术也随之渐渐融入人们的生活。其中,计算机网络的普及更是为人们的生活提供了极大的便捷,不仅如此,
随着社会经济的不断进步和发展,促进了煤炭行业的蓬勃发展,煤炭产业的税收优惠与政策受到了越来越多人的关注和重视。本文将进一步对国内外煤炭产业的税收优惠与政策展开分析