论文部分内容阅读
网络以及各种用户服务的兴起大大提升了我们的生活品质,也记录了用户方方面面的数据,这些数据体现了用户的生活方式、习惯、交友方式、甚至是性格特征。利用这些数据对用户未来行为进行预测,可以帮助我们挖掘用户的移动模式,使得各种应用为用户提供更加吸引人的前瞻性的体验成为可能。个人行为预测也让商家能够更准确地掌握用户需求,为更加智能的广告投放、市场营销、以及商品推荐带来可能,而群体行为预测可以帮助政府预测重要的公共紧急事件,从而避免人群蜂拥,也能辅助监测城市内部和城市之间的人口流动,从而帮助城市规划者了解城市的功能区域,或帮助卫生检疫部门监测传染病的传播方向;短期的预测能够助力即时推荐系统,了解用户的实时需求,而长期的预测能够为诸如商品的长期供应,人群中的疾病防控等提供有力参考。许多工作都研究了用户行为预测问题,利用诸如序列分析、高斯混合模型、矩阵分解模型等方法对单种用户数据进行建模。然而,单个服务平台上的数据只体现了用户行为的一个方面,无法从中学习到用户的全局信息。我们希望能结合多个平台的异质数据帮助我们更全面地刻画用户的行为模式,从而帮助预测未来行为。这其中面临着诸多的挑战,比如,当不同平台上的用户可以互相匹配时,往往会面临数据类型和粒度不统一的问题,当用户无法互相匹配时,如何挖掘数据之间潜在的联系帮助预测用户的行为,甚至是如何利用匿名数据挖掘群体的行为信息,从而帮助预测群体用户状态。本文利用大量真实的城市甚至国家级别的用户行为数据集,围绕上述这三个主要的跨平台用户行为建模和预测的挑战,从具体的场景出发进行深入研究。具体来说,首先,我们结合用户使用app的数据以及用户的位置数据来预测用户未来较长时间内使用app的趋势,提出了具有普适性质的长期预测方法,在算法中结合了协同过滤、时间序列分析和张量分解思想,挖掘了用户、app、用户所处的上下文情境等因素之间的聚合效应,也同时考虑了时间序列维度的平稳性、趋势性和周期性;接着,我们使用微博签到数据、匿名的公交车乘车记录和出租车乘车记录来对用户未来签到位置进行预测,因为用户无法匹配,我们使用引力模型从异质数据中学习了每个签到位置对其他区域的影响力,并且同时挖掘了用户移动行为中的规律性和从众性,帮助预测用户未来的位置;最后,我们利用社交网络中的匿名签到数据帮助预测伦敦地区不同区域的人们的健康状况的演变,从用户的签到数据中挖掘人们的生活方式信息,并且结合高斯混合模型和协同主题模型来利用挖掘到的居民生活方式信息帮助预测他们的慢性疾病发展情况,同时为探索居民生活方式和慢性疾病发展状况之间的联系提供了新的视角。我们使用真实的多个平台上的用户行为数据以及居民慢性疾病发病率数据对文中提出的模型进行验证,证明了这些算法在预测准确性和高效性上相对于基准算法的明显优势。