论文部分内容阅读
推荐系统是数据挖掘的应用分支,为用户提供个性化服务,旨在帮助每一个用户在海量的数据中筛选出合适的信息。其核心任务在于从丰富的日志数据中组合使用各种算法策略挖掘潜在信息。点击率预测算法是一种常见的推荐策略,该方法通过计算商品或广告的被点击概率并从高至低排序,得到最终的推荐列表。点击率预测算法的性能直接决定了推荐系统的优越性。在电子商务的应用背景下,除物品特征外,丰富的用户历史行为数据给予点击率预测任务更多的可能性,如何从用户行为序列中挖掘用户兴趣是点击率预测技术的新兴研究方向。论文结合注意力机制与用户行为序列数据,研究了个性化商品点击率预测算法,并将其应用于实时购物推荐系统。通过分析点击率预测算法的研究现状,指出了基于特征交互方法的性能瓶颈。现有的基于用户行为序列的点击率预测方法忽视了重要的时间信息,针对序列数据的时间特征,论文将序列内部任意两个行为的时间差构造为相对时间图,设计了结合时间特征的自动嵌入编码器,用于提高特征的表达能力。为解决用户原始行为序列在预测用户未交互物品上的局限性问题,论文对多特征融合技术进行了研究,设计了多特征融合的兴趣进化模块,用于模拟用户行为序列单位时间的变化,该模块能够以信息无损的方法将相对时间图中的时间特征融入注意力权重计算过程中。在此基础上,论文提出了时间感知的点击序列网络(TACSN,Time-aware Attentive Click Sequence Network),该模型结合了序列数据与注意力机制,利用时间特征增强注意力计算结果,分别经过泛化行为序列数据和提取用户兴趣两个过程,得到最终的点击概率。论文将提出的模型与多个基准模型作对比实验,实验结果证明了模型的有效性。通过消融实验验证了各个模块对模型做出的贡献,并利用网格搜索方法寻求模型中超参数的最优解。论文设计并实现了购物推荐系统,该系统利用论文提出的模型,动态生成用户感兴趣的物品列表,提升了商品被点击的概率,验证了模型在实际应用中的可行性。具体来说,论文的主要工作包含以下几个方面。(1)研究了离散时间特征的嵌入向量生成方法。在分析不同嵌入模型的优缺点的基础上,设计了时间特征的自动嵌入编码器。该编码器能计算出每一个特征值在一个嵌入变量组上的概率分布,并用聚合函数得到最终的嵌入向量表达,解决了连续特征嵌入向量在表征容量和模型复杂度上的平衡问题。(2)研究了信息无损的特征融合方法。在注意力权重计算过程中,利用融合函数将时间特征与其他物品特征融合,并将权重分配给原始的物品特征。使模型在学习多特征信息的同时避免了模糊物品原本的语义,提升了序列模型的数据表示能力。(3)研究了时间感知的点击序列网络。将序列内的行为作为图的节点,行为发生的时间差作为边,构造相对时间图。为了增强时间特征并模拟用户兴趣的演化过程,将图以信息无损的方式融入Transformer的自注意力模块,称作相对时间感知的Transformer,该模块能够利用时间差信息模拟用户行为单位时间后的变化。在此基础上,提出了时间感知的点击序列网络TACSN,该模型利用相对时间感知的Transformer,增强序列行为的表达,利用注意力机制学习序列中的物品和待预测物品的相似性,相较于其他方法能够更深层次地挖掘用户兴趣,提高点击率预测的准确性。(4)对相关算法进行了对比实验。论文在两个真实数据集上进行了多个算法之间的比较实验,结果表明本文提出的TACSN在所有的评价指标上都取得了最优。论文设计了消融实验,验证了所提出的各个模块的有效性。通过设计多组实验,研究了用户行为长度对模型的影响,得到了在不同数据集上最优的行为序列长度。最后本文展示了各模块的超参数训练过程和参数最优值。(5)基于论文提出的TACSN模型,设计并实现了购物推荐系统。系统包括购物模块、推荐模块和后台管理模块。基于前后端框架构建基础应用服务,利用大数据框架实现在线商品推荐功能,从而验证了模型在实际应用中的可行性。