论文部分内容阅读
随着信息过载问题日渐严重,推荐系统的研究成为计算机领域的焦点问题。传统推荐系统过度关注了单一项目的分类和评分,忽略了推荐系统的本质:为用户提供感兴趣商品清单。针对传统推荐系统的缺陷,本文基于用户会话的推荐算法,提出了一种融合XGBoost和门控循环单元(Gated Recurrent Unit,GRU)的排名推荐算法。充分利用XGBoost优化数据模型进行特征提取,对用户隐性反馈数据进行分析,从而挖掘用户潜在兴趣,提高推荐系统性能,提升用户体验,具体研究内容如下:
(1)传统的树提升模型仅关注了数据集上的训练损失,从而导致数据模型过于复杂,不利于进行特征提取工作。针对这一问题,本文创新地引入了XGBoost。XGBoost的优势在于损失函数中不仅定义了数据训练损失,还定义了控制数据模型复杂度的正则项。同时,为了更好地对商品项目进行相关度建模,引入了皮尔逊相关系数。结合皮尔逊相关系数,构建了融合XGBoost和GRU的序列推荐算法。实验结果表明,使用XGBoost进行特征提取比使用树提升模型进行特征提取在MRR指标上有提升。
(2)传统Dropout I网络通过随机删除会话中的点击来减少噪音数据。由于删除行为过于随机,存在将重要点击删除的可能。针对此问题,本文引入时间点T和停留时间(Dwell Time)对传统Dropout网络进行了改进。通过分析用户点击行为得出结论:在T=2秒时不存在用户兴趣分布。因此,改进的Dropout网络会删除停留时间等于两秒的点击。实验结果表明,利用改进的Dropout网络进行数据处理,其平均召回率相对于传统的Dropout网络有明显提高,且数据分布更加均匀。
(3)为了挖掘更多有效的用户序列信息,本文引入图嵌入方法,并利用点击步数和用户兴趣的关系,对其负采样标准进行优化。结合改进的Dropout网络和图嵌入方法,构建了一个基于用户会话的GRU排名推荐算法。该算法使用Learning to Rank方法中的Pairwise生成一个与查询目标呈正相关的推荐清单。实验结果表明,所提出的算法克服了传统推荐算法过度关注单一项目的分类和评分的局限,在Rec@25和MRR两个评价指标上均有所提升。
(1)传统的树提升模型仅关注了数据集上的训练损失,从而导致数据模型过于复杂,不利于进行特征提取工作。针对这一问题,本文创新地引入了XGBoost。XGBoost的优势在于损失函数中不仅定义了数据训练损失,还定义了控制数据模型复杂度的正则项。同时,为了更好地对商品项目进行相关度建模,引入了皮尔逊相关系数。结合皮尔逊相关系数,构建了融合XGBoost和GRU的序列推荐算法。实验结果表明,使用XGBoost进行特征提取比使用树提升模型进行特征提取在MRR指标上有提升。
(2)传统Dropout I网络通过随机删除会话中的点击来减少噪音数据。由于删除行为过于随机,存在将重要点击删除的可能。针对此问题,本文引入时间点T和停留时间(Dwell Time)对传统Dropout网络进行了改进。通过分析用户点击行为得出结论:在T=2秒时不存在用户兴趣分布。因此,改进的Dropout网络会删除停留时间等于两秒的点击。实验结果表明,利用改进的Dropout网络进行数据处理,其平均召回率相对于传统的Dropout网络有明显提高,且数据分布更加均匀。
(3)为了挖掘更多有效的用户序列信息,本文引入图嵌入方法,并利用点击步数和用户兴趣的关系,对其负采样标准进行优化。结合改进的Dropout网络和图嵌入方法,构建了一个基于用户会话的GRU排名推荐算法。该算法使用Learning to Rank方法中的Pairwise生成一个与查询目标呈正相关的推荐清单。实验结果表明,所提出的算法克服了传统推荐算法过度关注单一项目的分类和评分的局限,在Rec@25和MRR两个评价指标上均有所提升。