论文部分内容阅读
随着近年来GPS技术的快速发展以及手持设备的大量普及,人们可以越来越便利地记录位置信息,并上传至管理服务器。根据时间先后顺序排列的这些记录,形成了用户的行动轨迹。由此,大规模用户的轨迹数据得以采集。本文关注用户轨迹大数据的管理查询,签到轨迹数据特征的抽取分析以及地点预测等相关研究。如何有效管理轨迹大数据,是研究学习轨迹数据的前提条件。学习用户的轨迹数据,理解用户的行为模式,能在智能推荐、路径规划等多种商业应用中大显身手。轨迹数据的处理分析是时空数据研究的重要分支。相比一般的时空数据,轨迹数据结构更加复杂,给存储管理和分析挖掘造成了更大的挑战。本文对轨迹数据从存储索引、查询优化、分析处理和挖掘理解等方面开展了一系列的研究工作,开发和设计了一些索引结构、模型和算法。具体而言,本文的研究工作从三个方面顺次开展:1.基于出行时间的轨迹查询:在同时考虑地理位置和到达时间的基础上,本文提出一种新的时空轨迹查询。给定一组查询地点,该查询在轨迹数据库中找到一组轨迹,使得从这些轨迹的点出发到所有查询地点的时间之和最少。为了有效处理该查询,本文提出为每一个查询地点在线生成候选轨迹列表,在该列表中轨迹按照其与查询地点的到达时间排列。根据这些候选列表依次迭代生成的候选轨迹,经过进一步剪枝和验证,最终筛选出满足条件的轨迹。2.基于时空关键字的轨迹范围查询:为了更好的利用社交网络中的带文本的用户轨迹,本文提出对于带有文本信息的轨迹范围查询。给定查询地理区域、时间范围和一组查询关键字,该查询的目标是找到在查询时间范围内经过该查询区域的轨迹,且包含所有的查询关键字。为了加快此类范围查询的处理效率,本文提出新的索引结构IOC树。该结构结合了倒排索引和octree的思想,根据空间、时间和文本限制进行快速剪枝。此外,该结构同时支持关键字有序情况下的变形查询。3.面向多场景下的地点预测:社交网络用户的签到记录根据时间先后顺序排列成用户的行动轨迹,根据用户轨迹预测其下一个签到地点是一项基本的数据挖掘任务。该任务主要的挑战来自数据稀疏性和场景的多样性。本文提出一种基于特征融合的通用预测模型,在各种场景下均能取得较好的预测效果。该方法利用核密度估计模型对地理位置信息建模,矩阵分解方法对协同信息进行建模,并利用图结构抽取用户时序签到信息的转移模式。基于以上研究工作,本文对用户轨迹数据的多个方面进行了深入的研究和讨论,力求提高轨迹数据的处理效率,深刻理解轨迹大数据内在蕴含的知识,学习用户的行为模式。大量的在实际数据集上的实验,可以证明本文工作的有效性和适用性。