论文部分内容阅读
随着Internet的迅猛发展,网站中的信息急剧增长,人们想要发现、收集和维护自己所需的信息需要花费大量的时间和精力,“信息超载”现象越来越严重。推荐系统是解决这一问题的有效方案,它根据用户的特征,推荐满足用户需求的对象,实现个性化服务。推荐系统在电子商务环境下的作用尤为突出,它可以从三个方面提高网站的收益:将电子商务网站浏览者转变为消费者;提高电子商务网站交叉销售能力;建立电子商务网站客户忠诚度。协同过滤是目前推荐系统中广泛使用的最成功的推荐技术。它首先找出一组与目标用户偏好一致的邻居用户,然后对邻居用户进行分析,把邻居用户喜欢的项目推荐给目标用户。协同过滤不需要考虑项目的内容,且易于实现,许多大型网站都应用了协同过滤技术为用户提供个性化服务。尽管协同过滤在个性化推荐方面取得了巨大成功,但却面临着数据稀疏性、多内容、可扩展性和群体推荐等关键问题,这些问题制约着其进一步发展,因此需要对这些问题展开深入的研究。本文的主要研究内容如下:(1)对协同过滤领域的国内外研究进行了全面梳理,在此基础上阐述了协同过滤的基本知识,提炼了协同过滤中存在的关键问题,并介绍了国内外研究人员对这些问题的研究现状。(2)最近邻选择是协同过滤的核心步骤,通常的做法是计算目标用户与其他用户的相似性,选择相似性最高的前k个用户作为目标用户的最近邻。然而,由于用户的评分向量异常高维、稀疏,使得协同过滤中的最近邻搜寻结果不够合理,从而导致较差的推荐质量较差。基于此,提出一种有效的最近邻选择方法—两阶段最近邻选择算法。给出近邻倾向性的定义,形成初始近邻集合;通过等价关系相似性对初始近邻集合进行修正,使搜寻到的最近邻更加合理。(3)针对协同过滤的多内容问题,提出了一种基于项类偏好的协同过滤推荐算法。首先为目标用户找出一组项类偏好一致的候选邻居,候选邻居与目标用户兴趣相近,共同评分较多。然后在候选邻居中搜寻目标用户的最近邻,从整体上提高最近邻搜寻的准确性。(4)针对协同过滤的可扩展性问题,提出了一种改进的近邻传播聚类算法。采用灰关系等级和Jaccard系数对用户相似度矩阵进行定义,缓解评分数据的稀疏性,提高算法的聚类质量。对于算法产生的n个初始聚类,保留Silhouette值较大的前k个聚类,将剩余聚类中的用户按所属类的Silhouette值分配到相应的聚类中,产生指定类数的聚类,加快聚类速度。与原始近邻传播聚类算法相比,新算法在处理协同过滤可扩展性问题方面具有更好的性能。(5)尽管传统的协同过滤推荐系统在个体用户推荐方面取得了巨大成功,但它并不适用于向群体用户进行推荐。随着虚拟社区中群体用户的不断增加,构建群体推荐系统,向群体用户提供个性化推荐,减少他们搜集信息所耗费的时间和精力显得越来越重要。基于此,提出了一种新颖的推荐方法—结合领域专家法的群体用户推荐算法。该算法以基于项目的协同过滤技术为基础,根据群体成员间的相互作用确定群体偏好,由群体偏好产生推荐,推荐过程中存在的成员未评分项采用领域专家法进行预测填充。此外新算法还考虑了成员间相似关系对推荐质量的影响。(6)研究了协同过滤推荐问题的一个具体实例—myCFRS电影推荐系统,分析讨论了myCFRS的主要模块及功能结构,给出了myCFRS的开发环境及实现界面。