论文部分内容阅读
现代网民经常会在互联网的海量内容中感到迷失,不知如何寻找自己可能感兴趣的内容。个性化推荐系统能将用户和内容进行匹配,协助用户做出决策,满足用户的信息需求,在互联网+时代发挥了重要作用,并逐渐扩展到了更多应用领域,比如视频会议系统。视频会议系统通过网络音视频提供了远程的实时交流服务,降低了沟通成本,现在开始尝试逐渐从机构用户渗透到个人用户,目标是提供一个沟通的大平台。此时,可以应用推荐技术来帮助用户挖掘他们所喜欢的,想要参与的交流活动。可以注意到,包括视频会议系统在内的绝大多数系统都得不到用户物品评分反馈,只能收集到诸如点击,参与会议这样的隐式反馈。推荐系统也只能借助隐式反馈来对用户偏好进行建模。本文结合了视频会议系统来研究隐式反馈推荐方法,通过分析视频会议系统的反馈数据模式,针对性地进行推荐算法设计,提出融合了隐式反馈和物品本身信息的SimBPR个性化排序推荐算法,并依此设计和构建视频会议系统的推荐模块。文章首先分析了推荐系统和视频会议系统的的历史和发展趋势,然后叙述了现有的隐式反馈推荐算法,共分为单类协同过滤、引入辅助信息推荐和排序学习三类。通过观察业界实践,明确了基于逐对排序学习的算法是最佳方案,据此对贝叶斯个性化排序(BPR)算法通过最大化模型参数的后验概率来进行推荐的原理进行了分析学习,并提出了在分布式系统上实现BPR的方法。鉴于物品内容信息一直是辅助推荐的有效手段,本文使用描述文本代表物品,设计了一种基于语义相似度、关键词相似度、类别相似度的三合一相似度计算方法。随后文章推出比BPR更进一步的偏好假设,认为用户会对和自己以往交互过的物品相似度高的物品更感兴趣,由此根据物品相似度把用户没有交互过的物品集合分为和历史交互物品高相似度和低相似度的两个物品集合,分别称为假反馈集合和缺失反馈集合,并依此改进BPR算法,构建了同时训练真反馈样本和假反馈样本的SimBPR算法。另外,BPR算法的随机样本采样是有优化空间的,本文进而提出正负样本分别基于时间和基于流行度进行采样。观察到业界流行使用大规模上下文辅助信息来对推荐建模,本文还针对视频会议系统设计了可以收集到的上下文特征,包括参会人数和参会用户的好友关系等,并使用因子分解机将其融入个性化排序的底层模型预测器之中,为SimBPR构建了一个新的预测器。随后,文章基于Spark、Hive、HBase等技术来为视频会议系统设计推荐模块。模块设计中把模块分为了离线、近线和在线三个子模块分别负责非实时、准实时和实时的计算任务;在系统中,设计了全量上传和日志上传两种数据采集方式,并依照星型模型设计了数据建模方法。最后,文章详细叙述了每个子模块的设计和实现。第三部分中,文章对SimBPR算法做了离线实验,选取了BPR和AoBPR这样较先进的算法作对对比算法,设定推荐列表长度为5,在两个数据集上分别测试,表明SimBPR在AUC、MAP和NDCG指标上实现了对两种对比算法的超越,进而验证了物品信息对推荐起到的正面作用。实验还测试了假反馈权重和物品相似度计算中的子相似度权重的不同取值对SimBPR性能的影响。