论文部分内容阅读
随着Web2.0时代的到来,以YouTube为代表的基于用户原创内容(UGCs)的视频网站受到互联网用户的高度追捧。但相关研究表明,受网络带宽资源限制及用户规模影响,现有Internet视频流在播放过程中产生的时延占视频时长的比重较高,直接影响了用户的体验质量。为降低视频播放时延,近年来业界从不同角度提出多种流媒体系统架构优化方案,如提高服务器软硬件性能、增加网络带宽、部署网络代理(proxy)和构建内容分发网络(CDN)。上述方案虽能缓解播放时延,但增加了系统部署成本,缺乏可扩展性。为此,学术界及产业界从软件角度对视频前缀预取技术(prefix pre-fetching)开展了研究。但是由于基于用户原创内容的视频服务在用户行为和视频内容上具有很多区别于传统视频服务的特点,如视频数量很多、视频长度较短、内容数据少,内容产生速度快,流行度分布不均衡。因此传统的视频预取策略并不能很好地应用到用户原创内容视频服务系统中。论文结合用户原创内容视频服务系统特点,以降低用户视频响应时延、提高用户观看体验质量为目标,通过综合考虑YouTube视频网站中不同流行度视频的特点,挖掘用户间的社交关系及视频间的关联关系、融合视频流行度及用户历史行为信息,对基于流行度和社交网络信息的用户原创视频预取策略开展了研究,并利用真实数据集对论文所提算法进行了离线分析。论文主要贡献包括:1)论文利用YouTube API获取到由用户信息、视频信息及用户行为信息组成的YouTube视频网站数据集。通过对数据集的分析发现了视频流行度分布基本符合指数截尾的Zipf定律。该分布特征表明YouTube中的视频流行度呈现“富者更富”现象,且其中冷门视频数量明显少于Zipf定律预测的结果。因此,YouTube视频可分为热门视频和长尾视频两类。2)论文针对热门视频流行度很高特点,提出了一种结合流行度和用户兴趣的热门视频预取算法;针对长尾视频流行度不高特征,通过对YouTube用户间及视频间蕴含的社交网络拓扑进行分析,提出了一种基于社交网络和用户显性行为的图模型,并建立了用户节点-视频节点间的相似度度量算法,为用户预取相似度较高的长尾视频。3)论文针对用户观看行为的多样性和差异性特征,通过融合用户的历史行为信息,提出了一种融合热门视频和长尾视频的个性化混合预取模型。