论文部分内容阅读
近年来,推荐系统已经被广泛应用于各大互联网平台中,为解决信息过载问题提供了有效的解决方案。推荐系统的目的是根据物品的属性(价值)和用户的偏好,从大规模物品池中挑选出用户感兴趣的物品并进行推荐,以此来满足用户的需求。因此,其核心主要包含三个方面。首先,推荐系统需要能够准确描述物品的价值;其次,推荐系统需要能够深入理解用户的偏好行为;最后,面对大规模物品和用户时,推荐系统需要能够高效地对模型进行训练以达到快速迭代更新的目的。现阶段,尽管推荐系统的研究已经取得了非常不错的效果,其大量的落地应用也使得用户深切地体会到由推荐系统带来的便利,但是想要进一步提升推荐系统在实际场景中的效用需要围绕物品、用户和模型三个研究对象进行更深入地研究与分析。这其中面临着三个研究挑战:针对物品而言,其价值受到不同因素的影响导致对物品排序困难;针对用户而言,其行为模式复杂导致对其理解困难:针对模型而言,在负反馈推荐场景下,面对大规模物品时负样本的缺失导致模型训练低效。为了解决上述三个挑战,本文系统性地开展了面向推荐系统的高效学习与精准推荐技术与应用。具体的,本文分别在物品价值分析与建模、用户行为理解与预测和模型高效训练三方面进行了研究。本文的主要工作与贡献可以概括如下。(1)本文研究了物品价值分析与建模方法。针对金融众筹平台中的融资项目和社区问答平台中的用户回答,分别对影响它们价值的因素进行了分析。一方面,本文针对金融众筹平台中的融资项目,发现影响其价值(项目融资分布以及项目融资成功所需时间)的因素主要包括融资项目在创建时由融资者提供的描述信息和其他投资人给出的评论信息。为此,本文提出了基于众筹项目属性和用户评论的模型SMP,其中包含一个编码器和一个解码器分别用来预测融资分布预测和融资成功时间预测两个任务,并利用序列到序列的框架将他们融合进行联合建模。其中编码器基于用户的投资心理和行为有序建模了两类影响融资项目价值的因素并预测最终的融资分布,解码器则根据编码器的预测结果来进一步预测融资成功时间。此外,本文还提出了多个先验强化模型的预测能力。实验结果表明SMP在两个预测任务上相比于对比方法都达到了更好的预测效果。另一方面,本文针对社区问答平台中的用户回答,发现影响其价值(用户的满意度/点赞数)的因素主要包括问答的语义匹配程度和时间效应。为此,本文提出了基于语义增强和时间效应的回答排序模型EARNN。在语义增强方面,本文发现了问题对应的标签对衡量问题和回答两者之间的语义匹配程度起到一定的增强作用,基于此本文提出了标签感知的注意力机制,实现更加精准的语义匹配。在时间效应方面,本文发现回答的时间越早,那么回答的价值就越高,基于此本文提出了一种启发式的方法,设计了时间敏感的价值衰减因子使得回答的价值受到间隔时间长短的制约。实验结果表明EARNN在回答排序结果上相比于传统方法更加精准,也证明了时间效应在衡量回答价值时起到了重要作用。(2)本文研究了用户行为理解与预测方法。针对在线新闻平台中的用户,对影响其点击行为的因素进行了深入分析和理解。发现主要因素包含用户的个人兴趣和群体行为,并基于此提出了融合个人兴趣和群体行为的点击行为预测模型MMF。一方面,本文将个人兴趣进一步分解成短期兴趣和长期兴趣,并分别提出了基于LSTM的序列模型和类别感知的用户建模来建模这两类兴趣。另一方面,本文发现群体行为的表现形式与新闻的时效性紧密相关,新闻的强时效性使得一则新闻在短时间内获得用户群体的爆炸性点击量。因此,本文将用户因群体行为而发生点击的问题转化为对新闻时效性的预测,并创新性地形式化为点击事件预测问题。相应地,提出了基于生存分析技术的预测方法,描述了新闻因时效性而被点击的概率随时间的变化。在独立事件假设下,融合所有因素,实现对用户点击行为的预测。实验表明MFF在用户点击行为预测上的精确度高于传统方法,并且对于新闻时效性的刻画也是符合实际统计结果的。(3)本文研究了模型高效训练方法。在负反馈推荐场景下,面对大规模物品时负样本的缺失会导致模型训练低效。为了解决该问题,针对经典模型IRGAN中存在的两个问题进行了深入分析,并提出了基于采样可分解的生成对抗推荐模型SD-GAR。一方面,针对IRGAN中判别器预测精度低的问题,本文对IRGAN的优化目标进行了数学分析,发现了最优生成器的闭式解形式,并提出了基于自归一重要性采样的优化目标,成功提升了判别器的推荐效果。另一方面,针对IRGAN中生成器采样和训练低效的问题,提出了采样可分解的生成器。该生成器避免了大规模矩阵乘法,使得负样本采样效率得到了质的飞跃。同时,本文针对生成器提出了具有闭式解的优化目标,极大提升了参数的更新效率。实验结果表明SD-GAR在多个公开数据集上相比于IRGAN取得了更好的推荐效果。此外,通过训练时间的对比,证明SD-GAR的采样速度和训练速度都明显优于IRGAN。