论文部分内容阅读
随着信息技术的发展和宽带网络的普及,在线视频业务迅猛发展。在线流媒体视频播放已成为当今互联网上网络流量的主要贡献者之一。P2P流媒体系统拥有大量的视频资源,吸引了数以百万计的用户同时在线观看。面对海量资源时,如何使用户便捷的找到自己真正感兴趣的视频成为了一件具有挑战性的事情。个性化推荐技术作为大数据时代解决信息过载的有效手段,可以帮助用户从海量数据中发现符合其兴趣偏好的资源,在P2P流媒体系统中引入推荐系统,一方面可以帮助用户找到自己感兴趣的视频资源,改善用户体验;另一方面也可以帮视频提供商将非热门的视频推荐给用户,减少马太效应的影响,提高视频资源的利用率。本文结合Movielens数据集与PPTV流媒体视频播放系统的用户日志数据,重点研究了主流推荐算法在流媒体视频系统中的应用,本文主要工作与贡献如下:(1)通过视频标签实现了基于内容的推荐算法,基于向量空间模型验证了PPTV丰富的标签数量可以带来较高的预测准确度;并进一步引入了考虑权重的向量空间模型,实验表明降低热门标签的权重可以有效的提高预测精度;(2)针对在线流媒体系统的特性,设计了隐式评分映射策略,实验结果表明该策略在协同过滤算法上表现良好;(3)讨论了基于用户行为的推荐算法,并实现了经典的KNN协同过滤模型和基于随机梯度下降的隐语义因子分解模型,通过在两个数据集上的实验结果表明隐语义因子分解模型相比KNN协同过滤有更好的预测准确度;实验结果还表明KNN协同过滤模型在显式评分的Movielens数据集上准确度更高,而隐语义因子分解模型在隐式评分映射的PPTV数据集上准确度更高;(4)采用线性加权融合的方式实现了简单的混合推荐,利用最小二乘法拟合了基于协同过滤和隐语义模型这两个推荐算法,实验表明加权融合后的混合预测模型可以获得比单一预测模型更高的预测准确度;(5)基于前面的算法研究,设计了一个包含离线引擎和在线引擎的实际推荐系统原型。该原型系统能响应用户实时行为,并通过不断学习,改善用户在推荐系统中的体验。