论文部分内容阅读
随着网络传输技术的快速发展以及移动设备的大量普及,视频流量呈现指数级增长。这种视频大数据给我们带来众多机遇,除了传统各类视频门户网站(如优酷、NetFlix),各类自媒体平台也大量涌现(如YouTube,用户同时作为内容消费者和提供者)。推荐系统作为连接视频和用户的桥梁已成为每个视频服务公司的核心竞争力所在。然而如何从视频大数据中挖掘出有效信息以提升个性化服务能力对推荐系统提出新的挑战。协同过滤作为一种与视频内容无关的个性化推荐技术近年来得到学术界和工业界广泛研究,其基本思想就是历史偏好相似的用户其未来偏好依然相似。同时,基于推荐方式的内容无关性,相比基于内容的推荐,其无需耗费人力、物力进行用户信息搜集、视频特征标记等工作。协同过滤推荐精度及求解复杂度作为评估推荐系统的两个性能指标一直为研究的热点。模型精度对于正确刻画用户偏好从而进行精准化的推荐至关重要,而求解复杂度决定了大数据量背景下推荐系统的可实施性及快速上线的能力。就协同过滤而言,其模型精度与复杂度通常是一对矛盾,如何在两者之间取得折中是其所要面临的技术难点。本文在分析现有协同过滤推荐相关工作基础之上,针对隐反馈场景下的视频协同过滤分别从推荐精度以及计算复杂度两个方面展开了相关研究。在提升推荐精度方面,通过对用户偏好随时间动态变化的特征分析,本文提出基于时间信息的视频协同过滤排序模型,从而改进了静态协同过滤模型无法动态刻画用户偏好的局限。在优化计算复杂度方面,本文通过对现有协同过滤排序模型优化目标及相应学习算法的分析,从理论上得出现有学习算法存在无效优化的原因:梯度“抵消”。针对问题形成原因,本文提出了通过改进学习算法的抽样方式以缓解梯度“抵消”造成的学习缓慢。本文的主要工作如下:1.通过分析用户偏好随时间变化的特征,即长期演变,局部稳定,本文提出基于偏好局部相似性稳定的动态协同过滤推荐模型。这一隐式刻画时间的方式不仅提高用户偏好预测精度而且有效控制了模型的计算复杂度。同时,为防止模型发生过拟合,本文提出将贝叶斯个性化排序模型集成到所提时间感知的协同过滤模型之中。基于此集成模型,本文提出两阶段学习的近似求解算法;2.通过分析基于贝叶斯个性化排序的协同过滤模型优化目标及相应的随机梯度下降学习方式,本文推导出此学习算法训练过程中发生梯度“抵消”原因的数学形式。基于此形式,本文提出基于用户分簇视频热门度采样算法以缓解梯度“抵消”引起的无效优化,从而提高了模型学习的效率。