论文部分内容阅读
随着信息化时代的到来,如何在海量信息中寻找到对人们有用的信息成为当前面临的一个重要挑战。推荐系统是应对这一挑战的工具之一,正受到越来越多相关研究人员的关注。协同过滤推荐是其中的一个研究热点,它分析用户已经产生的行为,而不必关心推荐对象的内容,可作用于任何一个推荐领域,这是其最大的特点。协同过滤推荐的核心是计算用户之间或推荐对象之间的相似度,因此相似度计算的准确性决定了推荐结果的质量。如何提高相似度计算的准确性是本文研究的重点,本文主要内容如下:1)深入研究协同过滤推荐系统相关知识,包括推荐原理、实现步骤、推荐分类等。详细介绍了两种基于邻域的协同过滤:基于用户的协同过滤和基于物品的协同过滤,并从计算代价、应用场景和实时性等方面做了综合比较。总结归纳了传统相似性度量方法,通过列举实例分析指出余弦相似度、皮尔逊相关系数和杰卡尔德相似系数中存在的问题。2)对本文所使用的原始数据进行了数据清洗、数据变换和特征分析。结合数据特征和传统相似度方法中存在的问题,探讨了影响相似度计算的因素,提出了基于多权重的相似度计算方法。通过将高频物品、活跃用户、时间信息作为权重系数加入杰卡尔德相似系数中,从而使物品间的相似性得到综合性衡量。通过实验证明,基于多权重相似度方法能有效提升协同过滤推荐的精准度。3)在协同过滤推荐中,目标用户的近邻大小会间接影响预测偏好值。论文通过引入粒子群优化算法(PSO),设计了 一种基于PSO确定近邻个数的方法。通过该方法寻找的近邻个数,一方面能有效降低平均绝度误差,提高协同过滤推荐的准确性,另一方面能以较少的迭代步数确定近邻个数,提升了计算效率。4)结合本文提出的方法,设计并实现了个性化推荐系统原型。由于计算物品间相似度和确定近邻个数的过程较为耗时,系统原型设计为离线平台和在线平台。离线平台主要负责相似度计算、确定近邻个数、产生推荐列表等较为繁重工作,在线平台主要负责收集用户行为数据、查看用户推荐列表等轻量级工作。