论文部分内容阅读
互联网上海量的内容和资源给人们生活带来了便利,与此同时,也带来了信息超载的负面影响。如何通过数据挖掘技术解决信息过载问题掀起了学术界和工业界的一股研究狂潮,其中基于相似度建模技术的以下两大方案应运而生:(1)将资源按照内容相似性进行归类组织管理;(2)基于在线行为的用户相似性建模,从而实现个性化的服务。然而,针对这些应用的相似度建模技术面临着共同的挑战:变量之间存在的内在结构关系需要被挖掘并利用,数据空间高维稀疏的困扰需要被消除。为此,本文开展了基于概率生成模型的相似度建模技术研究及应用。主要成果及贡献如下:首先,提出了基于概率生成模型的标签间结构关系表示方法,设计了基于内容相似性的文本多标签分类方法。文本多标签分类问题中,类别标签存在多种结构关系,然而以往的研究工作一般仅关注成对标签关系的建模,从而影响分类效果。鉴于此,为了能够学习并利用多标签间的高阶关系,本文提出了L-F-L-PAM四层概率生成模型,通过统一的框架建模类别标签上的单词概率分布以及类别之间的相关性,并给出了基于L-F-L-PAM的多标签分类算法。具体而言,在训练阶段,应用L-F-L-PAM建模已标注的训练文档并推理模型的参数,在测试阶段,基于标准的Four-Level Pachinko Allocation Model预测未标记测试文档的类别标签排序。为了提高测试阶段的运行效率,本文还提出了剪枝的Gibbs抽样算法用于测试数据模型推导。最后在大量标准数据集上的实验结果表明,该方法比基准方法取得了更好的类别排序预测结果。其次,提出了基于概率生成模型的移动用户行为习惯相似性建模方法。移动设备感知的用户丰富情境数据为更精准地刻画用户的行为习惯提供了可能。现有的相关研究工作主要集中在建模用户的位置和时间情境,而忽略了其它一些有意义的情境。尽管也有一些工作研究基于丰富情境的行为习惯挖掘方法(比如,行为模式挖掘),然而如何针对挖掘的结果建模用户相似性方面的研究较少。鉴于此,本文探索了基于行为模式向量的移动用户相似性建模方案,并针对行为模式空间的高维稀疏问题,提出了一个两阶段的解决方法。具体而言,首先在行为模式挖掘之前,将位置情境抽象到社会位置中以及将交互记录转换成交互类别,从而规范化原始的情境日志,并在规范化后的情境日志上挖掘用户行为模式,然后采用了一个概率生成模型将用户从高维稀疏行为模式空间转化到低维可解释的超级行为模式空间。最后,同基准方法相比,在真实数据集上的实验结果表明该方法能够更精准地发现行为习惯相似的用户。最后,提出了一个融合多重相似信息(用户行为习惯相似性和App类别相似性)的移动App推荐算法。本文的前两个工作表明,结合用户的情境感知行为习惯有利于理解用户兴趣;将资源进行类别分析可以帮助充分了解资源特性。基于此发现,本文基于用户使用App历史日志构建用户-App偏好矩阵,提出了一个情境感知的移动App偏好预测模型实现排序推荐。该模型在传统的PMF协同过滤推荐算法框架中,有效结合了用户的情境感知行为模式空间相似性和App的类别相似性信息。在真实数据集上的实验分析表明该技术方案提高了排序推荐效果。