论文部分内容阅读
随着互联网以及电子商务的飞速发展,用户陷入了一种信息迷失的状态,面对海量的商品用户往往在找到感兴趣的商品之前已经非常沮丧、烦躁,因此很可能会放弃此次购物。解决该问题的有效途径一般认为是个性化推荐,协同过滤技术在推荐系统发展初期效果非常不错,但随着用户数目和商品种类的不断增加,打分矩阵变得越来越稀疏,传统的相似度计算方法会产生不准确的相似邻居,从而导致推荐质量下降。另一方面影响推荐质量的因素是很多的,而当前的个性化推荐算法不是单一算法,就是几个算法的简单组合,这些算法普遍准确性不高。集成学习通过集成多个弱学习器解决同一个问题,具有很好的泛化能力和稳定性,目前集成学习已经广泛应用到了很多领域,在最近几年的Netflix、Learningto Rank比赛中,顶级团队大多数使用的也是集成学习技术。因此若能将集成学习技术与个性化推荐相结合,必定能提高推荐系统的准确率。在电子商务快速发展的时代,提高个性化推荐系统的准确率是人们永远的追求目标,针对这一目标,本文的主要研究工作是:1、对协同过滤中的传统相似度算法进行了分析,根据它们存在的缺点,提出了一种改进的协同过滤方法PCS算法。该算法使用决策树自适应调整分割属性的特点,将决策树用于用户的分组上,因此就产生了一种寻找相似邻居的新方法。用户分组后只在组内进行个性化推荐,避免了计算所有用户间的相似度,提高了算法的在线可扩展性。另一方面,针对Pearson相似度存在的缺点,从流行度、用户共同打分商品数和用户打分差异度三方面对Pearson进行了改进,提高了推荐算法的准确性。2、针对目前大多数的算法都是从某一方面考虑提高推荐的准确率,而影响推荐质量的因素是很多的,集成学习算法SoftBoost集成多个弱学习器解决同一个问题,且该算法是最大化软间隔算法,能够避免难分数据的影响,有很强的泛化能力,因此本文将其和个性化推荐相结合,使用SoftBoost算法作为框架的同时,本文使用RankBoost中基于对的思想重新定义了间隔和边界,提出了SoftRankBoost算法。