论文部分内容阅读
随着互联网的快速发展,网络上出现了越来越多的视频。在科学研究以及商业领域对视频信息的需求也愈发强烈,对于普通用户而言,能快速准确地从海量的视频库中找出感兴趣的视频并不容易,因此,视频推荐成为了一个热门的研究方向。并且,随着越来越多的用户上传自己拍摄的视频,各大视频网站越来越重视这些自创视频。然而,传统的基于协同过滤的推荐系统在面对这些无标签、无文字描述信息的视频时并不能取得很好的效果。所以,本文旨在从视频语义角度出发,通过发掘视频所表达的语义,完成基于视频语义的推荐,并通过结合视频多源异构信息,实现基于多源数据的视频推荐。本文的主要工作概况如下: 本文首先明确了视频语义结构的定义(在本文中,主要研究体育类视频)介绍它们在视频检索以及视频推荐中的重要作用。接着,本文提出了两种视频语义提取方法,第一种是基于监督学习的视频语义提取方法,该方法使用3D卷积神经网络(C3D)提取视频帧的静态语义和连续帧序列的动态语义,然后使用连续时序分类(CTC)算法完成对视频语义的整合,将视频语义提取问题转化为了视频语义序列解码的问题,并通过实验证明该方法提升了3D卷积神经网络在视频语义提取上的准确度。第二种是基于非监督学习的视频语义提取方法,该方法同样使用C3D提取视频帧序列的语义,为了解决C3D-CTC对未标注视频语义提取准确度低的问题,本文使用递归自编码器对C3D提取出的帧语义序列进行压缩整合,得到视频的语义特征,并通过实验证明该方法比基于关键帧语义提取的方法在聚类结果上效果更好。 基于以上两种视频语义提取方法,本文提出了一种基于视频语义相似度的推荐算法,以解决传统协同过滤算法无法解决的冷启动问题。接着,本文研究了视频描述信息在解决冷启动上所具有的优点,将视频描述信息与视频语义相结合,提出了一种基于多源数据的视频推荐算法。最后,本文分析了推荐系统的设计与实现方式,并通过实验证明了该方法在推荐准确率上比传统方法有了一定的提升。