论文部分内容阅读
随着互联网的高速发展,根据用户自身特征个性化地向用户推荐物品的推荐算法在众多领域得到了广泛的使用,并在学术界成为了一个热门研究方向。虽然推荐系统算法的相关研究与应用已经取得了不少成果,但仍然面临着诸如稀疏性、冷启动等问题。针对这些挑战,国内外科研机构和商业公司提出了大量的改进技术和解决方案。本文将主要针对推荐系统中的概念漂移问题展开研究。传统的概念漂移问题通常是指隐含信息的改变会或多或少从根本上导致目标概念的改变。推荐系统中的概念漂移问题是指在系统数据随着时间累积的情况下,系统的推荐模型无法把握用户、物品的变化使得推荐结果偏离用户实际需求。为了减小概念漂移问题对推荐系统的影响,提高推荐系统的性能,本文主要完成了以下具有创新性的工作:(1)提出了一种用于扩充物品内容数据的网络垂直爬虫方法。对比传统技术,本方法在爬全率上较现有结果有了较大提升;(2)提出了一种基于用户-物品关系和物品内容特征的物品聚类方法。相对于传统针对物品的聚类算法,本方法在隐式反馈数据中能较好得将物品中的冷门和热门物品进行一定区分,使聚类结果尽可能平衡,且聚类类别能保留物品长尾分布特征;(3)验证了物品间关系的不平衡性。本文通过实验验证了在时序系统中,物品间关系并不像传统方法中认为的那么平衡,且这一关系与物品自身特征有较大关联关系;(4)结合真实数据,分析了用户行为的概念漂移规律。我们发现用户行为的概念漂移主要表现为:用户在对某些同类别物品有长期持续行为的同时,对这些类别物品的偏好也会随着时间发生缓慢变化。(5)设计了基于前置状态的推荐算法。本算法通过定义用户行为前置状态设计了基于前置状态的转移概率并基于这一转移概率完成了算法流程设计。实验结果表明本算法能较大幅度的提升推荐系统在时序状态中的准确率。本文对推荐系统中的概念漂移问题做了较系统的研究和归纳总结。其中针对该问题的主要研究与分析结果,为我们提出的基于前置状态的推荐算法提供了理论依据。