论文部分内容阅读
面对爆炸式增长的网络信息,如何从中过滤和筛选出用户感兴趣的内容,成为互联网时代需要迫切解决的问题。为此,推荐系统应运而生,成为继搜索引擎后解决信息过载的一项重要工具。与搜索引擎不同,推荐系统的本质是在用户没有描述明确需求的前提下,通过分析用户特征建立预测模型,从而将用户与其潜在喜爱的信息内容(对象)关联起来,主动进行推荐。因此,推荐系统凭借其强大的用户体验在电子商务、社交网络、资源分享等众多互联网应用中有着广泛的应用。 然而,现实中的用户数据常常存在缺失、过于稀疏等问题,使得用户兴趣建模和个性化推荐变得非常具有挑战性。围绕着推荐系统中面临的数据稀疏性和冷启动问题,本文提出基于多领域的用户兴趣描述、建模和优化方法,通过领域先验信息和各个领域间的知识迁移,针对传统推荐算法中面临的问题提出了若干解决方案,有效的改善了推荐性能。本文的工作和贡献可以概括如下: 首先,提出了基于半监督的概率主题模型的用户兴趣描述方法,从而将用户划分到多个领域当中,构建了基于领域的个性化推荐。一方面,现有协同过滤算法中的基本假设没有考虑到用户行为在不同领域中展现的多样性,即用户在一个领域中的相似行为不能推断出他们在另一个领域中的选择也是相似的;另一方面,面对稀疏的用户-对象交互数据,协同效应更加倾向于将受大众欢迎的商品推荐给用户,而缺乏对用户在不同主题上兴趣的深入理解。针对上述两个问题,本文给出了一种基于领域的推荐算法框架:TopRec。具体而言,通过领域专家先验引导的社区主题挖掘实现用户兴趣的分析与建模,最终由用户在领域上的兴趣偏好实现基于领域的协同过滤算法。在两个标准数据集上的实验结果表明,TopRec的推荐结果能够更准确的反映用户兴趣。 其次,提出了基于联合相似度学习的多领域推荐方法,从而实现同时推荐多领域中的对象。传统多领域的推荐算法以缓解数据稀疏性为目的,假设用户在各领域内共享相同的行为特征,利用领域间知识在共同行为特征上的传递可以弥补单个领域内的信息不足。但是,这种简单的假设忽略了在多领域环境下用户行为的异构性和从众性。换言之,用户行为模式不仅在不同领域下可能存在差异,而且往往存在与领域权威用户趋于一致的现象。基于此发现,本文设计了一种联合相似度实现用户兴趣的建模,将用户的最近邻集合在多任务学习的层面上分解成领域特定因子和领域共享因子。在领域共享因子形成知识迁移的同时用领域特定因子刻画异构性和从众性,通过基于相似度学习的推荐方法框架进行多领域用户行为预测。 最后,结合了不同的用户兴趣模型,针对信息完全缺失的冷启动挑战,采用了基于偏好引导的推荐方法。本文以挖掘最优初始对象集合为研究目标,为偏好引导提供了三种用户兴趣建模的方法:(1)提出了基于相似度学习的方法。通过构建带有组稀疏约束的自重构目标函数学习对象-对象间的相似度关系,发现具有代表性的对象种子;(2)提出了基于多领域半监督的方法。引入多领域类标作为监督信息,结合用户行为的相似度图约束,建立半监督的用户兴趣模型以选择具有偏好判别性的对象集;(3)提出了基于多领域对偶约束的方法。在多领域监督模型基础上,分析用户-对象交互空间和多领域类标空间中的实体关系,由此设计对偶正则化项,在统一的模型中实现用户和对象种子集的挖掘任务。实验结果验证了上述方法为冷启动推荐提供了行之有效解决方案。