论文部分内容阅读
计算机和互联网的急速发展,尤其是移动互联网技术的广泛应用,彻底改变了人们获取和分享信息的方式,海量互联网信息满足用户对信息的多样需求,为用户提供了极大的支持和帮助。然而,海量网络信息也导致用户不得不面临信息过载问题,即人们无法从海量的数据资源中快速地寻找所需的信息。推荐系统分析用户行为数据并建立模型,进而推荐用户可能感兴趣的物品,这一方法可以在一定程度上解决信息过载问题。另一方面,推荐系统是大数据背景下分析和挖掘海量数据的热点研究领域,具有巨大的理论及应用价值,推荐系统已经成为国内外学者的热门研究方向。推荐系统的目标是帮助用户选择一些用户自己可能感兴趣的产品,并将其以合适的形式展现给用户。Top-N推荐的目标是仅为用户推荐N个项目,其少量准确的推荐更符合用户的选择习惯,所以Top-N推荐算法逐渐成为研究热点。但是,经典的Top-N推荐算法存在未充分利用用户负反馈信息以及未考虑用户关系存在差异等问题,本文针对这些问题提出具体的解决策略,具体的研究内容包括:(1)基于正负反馈信息的Top-N推荐模型的研究。现有典型的Top-N推荐算法利用用户正反馈信息对全部项目进行排序,进而选择前N个项目进行推荐。在推荐算法中充分利用用户正负反馈信息,提出一种基于用户正负反馈信息的支持向量机Top-N协同过滤推荐算法(Support Vector Machine Collaborative Filtering Algorithm based on Positive and Negative Feedback,PNF-SVMCF),该算法有效利用用户负反馈信息,过滤用户不喜欢的项目,缩减Top-N推荐项目的规模,同时去除这些项目对Top-N推荐的干扰。(2)基于用户粒分布的PNF-SVMCF模型的研究。考虑到用户关系存在差异,提出利用信息粒分布不同的策略来优化推荐模型,为了验证该策略的有效性,将其应用到优化支持向量机(Support Vector Machine,SVM)的效率研究中,提出一种基于粒分布的SVM加速训练方法(Granular Distribution based SVM,GDSVM),该算法依照粒内正负样本分布选取粒代表点,进而利用代表点训练分类模型。接着使用该策略改进推荐模型,提出一种基于用户粒分布的PNF-SVMCF的推荐算法(User Granular Distribution based PNF-SVMCF,PNF-GDSVMCF),先将推荐系统中用户进行粒化,根据用户粒中是否存在目标用户这样的不同分布来优化评分矩阵,最终完成Top-N推荐。本文针对经典的Top-N推荐算法存在未充分利用用户负反馈信息以及未考虑用户关系存在差异等问题,提出PNF-SVMCF和PNF-GDSVMCF这两种推荐模型,在一定程度上提升了 Top-N推荐模型的精度和效率,同时将粒分布不同的策略应用于优化SVM效率研究中,提出GDSVM模型有效地提升了 SVM分类模型的效率。本文的研究成果对Top-N推荐和SVM分类模型的应用研究具有一定的意义。