论文部分内容阅读
随着电子商务的快速发展,购物网站产生了海量的商品信息,这使得用户难于从中发现目标商品(特别是长尾目标商品)。个性化推荐系统是当前解决这一问题的有效方式,研究改善推荐系统的性能具有巨大的经济价值。特征是从数据中提取的表征用户个性和偏好的量,如何选择高质量的特征对改善推荐系统的性能有着十分重要的意义。当前推荐系统领域的研究多集中在算法和模型,对特征选择优化的研究关注较少。本文对单模型推荐系统和分类器融合策略进行了研究,在此基础上提出了一种优化特征选择的融合算法,和一种可行的分类器融合方案。论文主要进行了以下三方面的工作:(1)对矩阵分解模型中的FunkSVD算法、逻辑回归算法(Logistic Regression,LR)和梯度迭代回归算法(Gradient Boosting Regression Tree,GBRT)的原理和实现进行了研究。分析了三种算法的模型复杂度、训练效率、应用场景和优势与不足,论述了LR算法对特征的筛选原理,以及GBRT算法的强分类能力,并对LR算法和GBRT算法的融合潜力进行了论证。(2)提出了一种基于逻辑回归和GBRT模型的融合算法。算法引入了分维度的特征筛选,用LR算法将特征区分为偏向于正样本和偏向于负样本两个维度;构建不同参数的LR算法,将特征筛选划分为不同的粒度;将GBRT算法训练特征的随机抽取优化为等比例从两个特征维度随机抽取;为GBRT算法的训练特征加入顺序规则,优化训练效率。(3)给出了一种分类器融合方案,选用基于逻辑回归和GBRT模型的融合算法以及FunkSVD算法进行分类结果融合重排序。算法的结果融合前用z-score归一化。(4)采用movielens数据集和天猫商城开放数据集作为实验数据集,F1指标作为推荐性能评测指标,以逻辑回归单模型和GBRT单模型做为对比对象,对算法进行了实验验证。实验证明使用本文算法和方案能够改善推荐系统性能,特别是基于逻辑回归和GBRT模型的融合算法的F1指标最大约有1.5%的提高。