论文部分内容阅读
随着Web2.0技术的飞速发展,以知识共享和大量用户交互为特点的大众标注(Folksonomy)概念随之产生。大众标注网站中所含有的标签功能使得用户可以根据自身喜好对网站中的资源添加相应信息。将大量的标注信息进行整理分析,可以为新的用户提供网站资源的参考从而形成资源的推荐。目前电子商务网站的个性化推荐系统已有多种,较为成熟的推荐方法是分析项目资源或者近邻用户之间的相似偏好来过滤信息达到向其他用户推荐的目的。而大众标注网站的数据特点是用户和项目之间通过标签进行桥接,因此对近邻用户、项目或标签计算相似偏好使得推荐系统的运算复杂程度增加;同时随着网站规模和数据量的增加,评分数据矩阵稀疏性问题也会导致系统推荐精度的下降。针对以上这些问题,本文运用基于高阶张量降维原理的高阶奇异值分解(HigherOrder Singular Value Decomposition)算法和数据聚类技术,结合具有典型大众标注网站特点的数据提出一种个性化推荐系统。对含有“标签”信息的标注网站推荐系统进行改进,避开繁杂的运算过程,提高推荐精度。本文的研究重点主要有以下几个方面:1.对典型大众标注网站进行数据收集,建立含有用户、标签、项目的数据列表。利用K均值(K-means)聚类技术对初始数据进行聚类。对数据进行初始聚类的目的在于增加数据之间的关联性,减少原始数据中的空余数据成分,从而为建立张量模型提供数据基础。2.通过对含有用户、标签和项目的三级数据库建立三维的张量空间矩阵,利用二维的奇异值分解在处理数据稀疏性问题上的良好特性,在多维张量空间矩阵中进行拓展。该方法能够在保证数据结构完整的情况下除去数据中的空缺部分,以达到降低数据稀疏性的目的,同时生成推荐结果;此外还能够有效降低大众标注网站当中的数据冗余,提高推荐精度;并且将标签信息较好地加以利用产生推荐,从而提高了推荐系统的效率。3.通过数据实验与几种传统的协同过滤算法的推荐效果进行对比,以检验本文所提出的将聚类技术与空间张量分解算法相结合的一体化推荐系统在社会化标注网站中的有效性。