论文部分内容阅读
集成学习作为一种新的机器学习范式,通过使用多个学习器来解决同一问题,能够显著提高系统的准确率和泛化能力。从上世纪90年代开始,集成学习已经成为国际机器学习领域的一个研究热点。另一方面,随着信息技术的迅猛发展,导致了信息爆炸,使得信息的利用率急剧降低,即所谓的信息过载或信息迷失问题。通常认为解决这个问题的最有效方法是个性化信息推荐,它能够主动地搜集用户的兴趣偏好,为用户推送个性化的信息。虽然当前个性化推荐技术已经有大量研究工作,但是这些方法的准确率普遍不高,适应性差,往往只考虑少数几个因素。如果能够将集成学习技术应用到个性化推荐问题中,势必会增加当前个性化推荐的有效性和适应性。就集成学习本身而言,同样存在一系列的问题有待进一步研究,如boosting集成学习中弱学习器间的相关性和冗余性问题等等。基于此,本文针对集成学习理论及其在个性化推荐中的应用,开展了多项有意义的研究工作,主要创新点包括:(1)针对boosting集成学习中弱学习器的相关性和冗余性问题,本文提出SelectedBoost算法。该算法在boosting迭代生成弱学习器时,计算新生成的弱学习器与已有弱学习器的相关性指标,用于对弱学习器进行选择。这样大大提高了传统的生成所有弱学习器以后再选择集成的效率,有效地减少了生成的弱分类器个数,并降低了整体弱分类器间的相关性。不仅提高了算法的收敛速度,而且使最终的分类准确率有了进一步的提高;(2)现有的间隔最大化boosting集成学习算法如LPBoost,SoftBoost,ERLPBoost等等,其样本权重更新只是基于已生成的弱分类器。然而与弱分类器相比,强分类器更能代表当前各弱分类器形成的分类超平面。因此本文提出了StrongLPBoost算法,通过在带约束的间隔最大化问题中,引入更加严格的强分类器边界约束条件,使得样本权重的更新不仅仅参考已生成的弱分类器边界,而且还参考当前形成的强分类边界信息,从而提高算法的收敛速度。(3)提出基于集成学习的RankBoost*推荐算法,使用基于相似度的评分预测方法和矩阵因子化方法作为基本学习器,并使用k-最近邻算法对这些基本学习器进行扩展,通过RankBoost*算法集成这些弱学习器,达到其优势互补的目的,提高了最终的推荐准确率,从而将boosting集成学习技术成功应用到个性化推荐问题中。(4)推荐系统的最终目标是给用户提供一个排序或者推荐列表,并且已经广泛认为这个目标比打分预测的准确性更加重要。基于这个原因,本文专注于商品排序或者topN推荐,而非打分预测。本文考虑使用排序学习方法生成推荐列表,提出了用于排序学习问题的通用boosting集成学习框架,具体实现了基于列表的个性化topN推荐算法NDCGBoost@K,并且该集成学习框架适用于其他基于列表的评价指标(如平均准确率均值)。最后,我们对本文工作进行总结并对后续研究进行展望。