论文部分内容阅读
互联网的迅猛发展和移动终端的推广普及,为人们提供了大量的数据和信息。面对海量的信息,人们如何从中筛选出自己感兴趣的信息资源,是推荐领域主要关心和解决的问题。协同过滤技术是当下应用最成功的推荐算法。其中,矩阵分解算法尤其受到学者们的广泛关注。矩阵分解算法通过对稀疏评价矩阵的低秩逼近对未评价数据进行预测。为解决数据稀疏性带来的过拟合问题,引入正则项是一种常用的方法。本文主要研究以Schatten p范数构造正则项引入矩阵分解模型,并用于协同过滤推荐算法。 数据的稀疏性、冷启动问题是目前推荐系统面临的主要难题。迁移学习的思想恰好为目前的推荐难题提供了有效的解决方法。迁移学习通过学习辅助领域知识,帮助目标领域的学习任务。由于推荐系统中辅助领域和目标领域的用户(项目)不完全一致,导致用户(项目)特征可能不完全一致。这使得许多特征迁移方法无法直接适用于推荐系统。对此,本文将研究以Schatten p范数构造正则项的迁移学习模型,用于帮助进行目标领域的评分预测。 本文的主要研究包括以下两个方面: (1)提出一种基于Schatten p范数正则项的矩阵分解模型,用于对未评分数据的预测。在现实应用中,不同评分数据矩阵的稀疏性有很大的区别。此外,一些恶意评价或托攻击也会导致评分数据矩阵的可靠性降低。因此,单一的矩阵分解模型难以泛化应用于多个不同的数据集。对此,本文提出基于 q 次幂构造训练集上的损失函数,并利用Schatten p范数构造正则项。进一步的,给出了在q=1,q=2和q=3下的迭代求解算法,并从理论上进行了算法推导和验证。由于每次迭代只需对具有“稀疏+低秩”结构的矩阵计算奇异值,该算法对大规模数据也具有很好的适用性。通过在多个实际数据集上,验证了本文算法的有效性。 (2)提出一种基于Schatten p范数正则项的迁移学习模型,用于对目标领域进行未评分数据的预测。对辅助领域的评分数据,先利用之前的算法提取其用户或项目特征。接下来,利用所学习的用户/项目特征构造基于Schatten p范数的正则项,并结合目标领域的训练数据上的损失函数构造迁移学习模型。该模型使得目标领域和辅助领域的用户/项目特征具有一定的相似性,从而实现辅助领域特征到目标领域的迁移。进一步的,提出了求解此迁移学习模型的有效算法。本文算法有几个明显的优点:1)无需要求辅助领域和目标领域的维度一致,降低了对数据集的要求;2)充分利用Schatten p范数的优点,每次迭代只需对具有“稀疏+低秩”结构的矩阵计算奇异值,能适用于大规模矩阵;3)算法参数少。通过和几种基于非迁移和基于迁移的协同过滤算法的实验比较,验证了本文提出的迁移学习算法的有效性。