论文部分内容阅读
近年来,随着网络技术的日益成熟,越来越多的互联网公司应运而生,以FaceBook、LinkedIn、腾讯等为代表的社交网站也纷纷出现,这些网站为人们提供一个学习、交流、娱乐的平台,极大地丰富了人们的生活,对人们的生活方式也有着重要影响。然而这些网站大都拥有庞大的用户量和海量的数据信息,海量的数据信息为互联网用户带来方便的同时,也给推荐系统带来了技术性的挑战。协同过滤作为最流行的推荐方法之一,由于其良好的可实现性和扩展性,在推荐领域被广泛地应用。其中用户对项目评价数据对传统的协同过滤算法起着关键性作用,然而在大数据时代的背景下,面对海量的数据信息,用户很难对自己喜欢的项目全部进行评价,这就造成了评价数据的稀疏,从而影响推荐算法的精度性。如何充分地利用丰富的社交网络信息,合理地建立推荐模型以提高推荐精度,已成为一个比较热门的研究方向。针对协同过滤算法中存在的问题,本文主要研究工作及成果具体如下:第一,从不同角度分析社交网络信息特征,并对协同过滤算法的算法思想、实现步骤、优缺点等进行研究,从协同过滤算法存在的问题出发,然后充分利用社交网络信息,对算法进行改进。第二,从多个方面分析影响算法的因素,对协同过滤算法中相似度模型进行研究,提出一种基于社交网络信息的协同过滤算法。用户(项目)相似度模型在协同过滤中起着关键性作用,由于数据稀疏,单一地利用评价数据计算的相似度模型对于推荐精度不能有很好地提高。针对上述问题,本文利用社交网络信息分别从用户的标注信息、标签信息、社交关系三个方面分别建立用户相似度模型,然后采用协同过滤算法进行融合。第三,对协同过滤算法中最近邻进行研究。传统的协同过滤算法都依赖于其最近邻,最近邻的精确程度,对推荐精度有着重要影响,然而最近邻的获取又常常依赖相似度模型。本文对社交网络信息以及算法中最近邻的研究,提出一种改进最近邻的协同过滤算法,该算法在寻找用户和项目最近邻时,主要从评价数据、用户社交活动信息,项目文本信息,来建立用户和项目的相似度,获取其相应的最近邻,然后将获得的四种最近邻进行组合改进,生成去噪最近邻与补充最近邻,最后利用这两个改进最近邻结合传统的协同过滤算法进行推荐。在KDD CUP 2012 Track1数据集上进行实验,实验表明,本文提出的两种算法对数据稀疏问题有较好的缓解作用,相比传统的协同过滤算法,推荐精度有较好的提高。