论文部分内容阅读
随着Internet技术的迅猛发展,承载信息的数据量呈现指数级别的增长。面对如此巨大体量的数据,用户往往感到无从适应,定位自己需要的信息将变得更加困难,也尤为耗时。推荐系统应运而生,它可以根据不同用户的历史习惯、喜好等信息,有针对性地为用户进行个性化推荐服务。该服务可以主动地为用户推荐感兴趣的商品或项目,不仅能改善用户的体验,也能提高用户的归属感。推荐算法是推荐技术中最为重要的部分,在众多的推荐算法中,基于协同过滤的推荐算法运用的最为广泛。数据挖掘是在大量数据中发现潜在规律的技术,数据挖掘算法应用于推荐系统有助于提高推荐效率。本文重点对基于聚类的协同过滤推荐算法及其应用进行了研究。首先,针对基于用户的协同过滤算法UserCF中最近邻居集的计算是基于全局数据结点的特点,引入聚类算法来划分用户群,使邻居集的计算缩小到同一簇集内;为了提高聚类的准确性,对K-means算法做了改进,设计了基于最小生成树的K-means算法MST-K,该算法借助最小生成树进行初始聚类中心的选取,避免了初始聚类中心随机选取对聚类效果的不良影响,该算法用余弦相似度进行相似度计算,也解决了“相似不相同”的问题;通过进一步基于Spark平台对MST-K算法并行化,提高了其时间效率。其次,在UserCF算法的评分矩阵中引入用户的特征属性来降低初始评分矩阵数据的稀疏性,以提高推荐质量。以此形成了融合MST-K的UserCF算法M-UserCF;并且对M-UserCF算法进行了基于Spark平台的并行化设计与实现,测试了该算法的性能。最后,将所设计的M-UserCF算法应用于旅游线路的推荐,开发了一个“旅游线路”推荐原型系统并给出了应用结果。基于Spark平台的测试及应用结果都表明:并行化MST-K算法和并行化M-UserCF算法在大数据集上具有良好的准确性及时效性。