论文部分内容阅读
随着互联网的迅速普及,各行业都进入互联网时代,用户数和行业项目数的迅速增长带来了信息过载的问题,海量数据让用户经常无法方便地得到自己关注的信息。继搜索引擎之后,个性化推荐技术的出现让用户摆脱输入描述信息的困扰。作为解决信息过载问题的重要方法,个性化推荐技术已经在电子商务、视频、音乐、社交网络等领域扮演着重要的角色。其中,协同过滤算法是推荐算法中使用率最广、最为成功并得到了大量的研究和使用。协同过滤算法流程直观,但在信息爆炸的环境中还是暴露出数据稀疏、可扩展性等问题,这些问题经常会大幅影响推荐效率、推荐精准程度。针对稀疏性和推荐精准度,本文展开如下研究:第一,针对传统协同过滤中数据稀疏性问题,提出了一种基于谱聚类和FCM聚类的群组发现数据预处理方法。该算法将用户项目评分矩阵转化为无向图,结合相似性计算和谱聚类算法得到以特征向量形式存在的群组,并结合最大最小相似度方法优化FMC初始聚类中心找寻,对特征向量聚类计算用户、项目对群组的隶属度,最终得到群组以及用户项目对群组的隶属度矩阵。结合标准数据集设计实验验证,实验表明该算法能有效降低数据稀疏性,与推荐算法结合后能提升推荐精准度。第二,在上一步解决稀疏性问题的基础上,针对传统相似性算法忽略用户评分标准差异的问题,提出了基于用户偏爱区间划分的协同过滤算法。该算法统计并计算用户对评分值的使用概率,并将概率映射并划分用户偏爱区间,将偏爱区间转化为坐标形式并结合相似度计算方法挖掘最近邻居集合,通过最近邻居的评分预测目标用户的评分,并综合各群组给出最后推荐结果。结合标准数据集设计实验验证,实验表明该算法能明显提高推荐精准度。将上述算法应用到宜家项目推荐模块中,详细介绍主要nodejs功能库、推荐架构设计和核心部分实现细节,先利用预处理方法挖掘出群组,在群组中直接使用基于用户偏爱区间划分的协同过滤算法,并综合各群组实现最终推荐,取得了良好的推荐效果。