论文部分内容阅读
随着移动互联网的飞速发展以及无线网络的大范围部署,无线网络改变了人们获取信息的方式,同时产生了丰富的、有价值的无线网络流量数据。理解无线网络流量中蕴含的用户移动行为,具有广泛的应用需求和应用价值。然而,从无线网络流量深入且全面地认识用户移动行为特性存在诸多挑战。一方面,用户身份缺失、多业务间数据孤岛等现象的存在,使研究人员难以获取用户接入无线网络时准确且完整的行为数据。另一方面,已有研究工作采用的数据集大多具有测试用户少、特征单一的缺点;并且尚未综合多种时空上下文信息,分析用户移动行为的时空特性,发现不同预测模型针对不同类型用户群预测性能的差异。此外,将用户使用在线内容服务时的浏览行为和移动位置数据相结合,探索位置对上网浏览行为的影响的研究也非常有限。本文针对基于无线网络流量展开用户移动行为分析的难点,首先创新性地设计实现了一种跨服务域的、通用的用户身份关联系统;利用大规模城市中大量用户的无线网络流量数据,分析了不同时空上下文信息对用户时空移动行为预测的影响,探索了时空预测模型和下一位置预测模型对于不同人群预测性能的差异,并挖掘用户的移动行为对其上网浏览行为的影响。本文的主要研究内容和创新点如下:1、设计实现跨服务域的用户虚拟身份识别与关联系统。网络时代的到来为人类提供了丰富的在线内容服务,人们在使用在线内容服务时都会被要求主动注册或者被动分配一个标识,这个标识被称为用户虚拟身份。由于同一用户多个服务的虚拟身份间没有直接的关联关系,一个真实用户被映射成多个标识出现在网络空间,完整的用户行为被割裂和分离。为解决此问题,本文构建了通用的、跨服务域的用户身份关联算法及其系统平台,平台具有如下特色:(1)提出了一种新颖的、融合了精确关联和基于概率关联的模型——VISD (Virtual Identity Linkage Cross Service Domain)模型。基于概率的关联方法将虚拟身份关联的问题定义为二分类问题,并通过非监督的基于用户行为特征的函数对二分类结果进行了优化,获得了较高的准确率和覆盖率。VISD模型算法简单,易于推广。(2)基于概率关联的模型依赖用户广泛的上网行为,通过定义多维度的指标充分量化了虚拟身份间上网行为的相关性和相异性。特征不依赖于特定服务域,具有普适性,可对多种服务进行应用推广。(3)用于评估的实验数据集来自不同的网络环境,充分验证了模型的有效性。此外,每个实验数据集均是长时间采集的、覆盖百万真实用户的上网流量数据。数据集中包含多种多样的业务,业务属于多种服务域,比如社交、视频、搜索、购物等。2、基于上下文的用户移动行为的时空特性分析。移动上下文提供了描述用户当前移动现状的信息,从移动行为的上下文信息入手,探索用户移动的时空特性,对于挖掘用户移动行为的本质特性,以及构建更合理的用户移动性模型具有指导意义,并且可以为移动性行为预测提供可靠方案。本文首先验证了使用无线网络流量数据分析用户移动性的可靠性。随后,从用户的历史轨迹中提取用户移动行为的空域上下文信息和时域上下文信息,分析不同时空上下文对用户群未来移动行为预测的影响,并得到一些有意义的结论。例如,(1)在研究移动行为预测时,将时域和空域的上下文信息融合更容易过滤一些冗余信息,获得较高的预测准确率;(2)考虑过多的时空上下文信息会导致过度拟合,影响用户位置预测的准确率,而仅考虑当前位置和前一个访问位置这两个空域上下文信息的预测模型,有较高的准确率和鲁棒性;(3)考虑时域上下文信息的预测模型,对于那些移动行为模式比较固定的用户群有更好的性能。3、构建基于兴趣点的用户移动性预测模型。当前研究主要关注两类移动模型:时空预测模型和下一位置预测模型。在为用户部署任何一种模型时,不同用户呈现了不同的预测性能。对于特定用户,某种模型可能会有很差的预测准确率。本文提出基于用户的兴趣点,构建高效的基于HMM (hidden Markov model,隐马尔可夫模型)的时空移动性预测模型和下一位置预测模型,并利用熵值量化了用户的生活习惯,评估不同预测模型针对不同生活习惯的用户群预测性能的差异,从而针对不同用户群构建灵活高效的移动性预测模型。通过广泛的实验分析,我们得出了一些有意义的结论。(1)基于HMM的用户移动性预测模型的性能,要优于已有模型;(2)移动性预测模型的预测准确率依赖于用户的生活习惯,对于那些历史移动轨迹较短或者有固定移动模式的用户群,时空预测模型的性能更好;(3)对于那些移动模式随机性强的用户群,下一位置预测模型能够呈现更好的预测性能;(4)研究用户移动性预测时,用户的历史移动轨迹长度和熵值是两个重要的因素,这两个因素能帮助部署人员选择针对该用户最优的移动性预测模型,以达到可靠的预测结果。4、研究用户上网浏览行为的地理空间特性。位置已经成为无线网络流量以及在线内容服务的一个重要因素。尽管已有很多研究关注线上社交关系的空间特性,但深入探索在线内容浏览行为和用户位置信息关系的研究却非常有限。为了增加从空间角度对人类日常浏览行为的认识,本文将用户使用在线内容服务时的浏览行为和用户的移动位置结合,从地理区域和单一用户两个层面,探索了在线内容服务的浏览行为的空间特性。首先基于LDA (Latent Dirichlet Allocation,潜在狄利克雷)模型分析了城市范围内不同地理位置区域的浏览行为模式,探索了不同区域浏览行为模式的差异和相关性。随后,提出了一种基于多层网络模型(Multilayer Network)的分析方法,研究用户间的距离如何影响具有相同内容浏览行为用户的空间分布。为了获得在线内容浏览行为空间特征的共性和特性,我们对三个不同的在线内容服务的网络流量进行了综合分析,发现了一些有意义的结论:在某种程度上,具有相似在线浏览兴趣的用户在地理位置上是聚集的,且不同类型的服务呈现出不同程度的地理空间特性。这些结论能够被引入多种实际应用,如基于地理位置的精准营销、内容存储和缓存等。