论文部分内容阅读
短视频作为一种新兴社交媒介,具有时长短,入门简单,易于分享等特点,更加满足当前网络社交的需求。使其在十年之内得到了快速发展,经历萌芽期,成长期,如今已进入爆发期。然而,伴随着用户数,短视频库存量,以及市场规模的快速增长,如何管理和组织好海量的短视频是当前短视频行业发展所面临的一个巨大的挑战。本学位论文旨在通过使用机器学习技术进行自动化的短视频表示学习,促进海量短视频的自动化、智能化地组织和管理,解决实际应用中存在的关键问题。同时,该研究成果也可以被推广至其他相关科学领域,如传统长视频的理解,多媒体内容推荐,社交网络分析等,一定程度上解决相关理论研究中存在的科学问题。虽然国内外学者对于短视频表示学习的研究已经取得一系列优秀成果,但是这些工作都未充分考虑短视频的自身特点,孤立的考虑内容信息对于表示学习的影响,忽略了其中所涉及的复杂关系。因此,本课题从短视频自身特点出发,探索短视频表示学习过程中存在的复杂关系,并对其进行建模以优化短视频表示学习。因此,本学位论文以短视频表示学习过程中存在的复杂关系为主要研究对象,并结合实际应用进行深入挖掘与分析,将短视频应用中存在的复杂关系由内及外归纳为三个大类,包括短视频内部的模态间关系,短视频与短视频间关系,以及短视频与外部的社交信息间关系,并考虑多种关系并存的混和关系。基于此,本学位论文重点研究基于复杂关系建模的短视频表示学习技术,并将研究成果直接应用于短视频分析与理解的不同场景中以验证其有效性。总体上,本论文主要工作和创新性包括以下四个方面:(1)基于模态间关系建模的短视频表示学习深入研究多模态信息间的相关性,厘清并定义不同模态间的一致性关系和互补性关系;提出一种关系敏感的多模态神经协同学习模型,显式性地解耦并建模两种不同类型关系,并首次尝试利用一致性和互补性关系针对性地设计多模态信息的融合策略,更好的实现多模态数据的表示学习,提升短视频表示学习质量。(2)基于短视频间关系建模的短视频表示学习针对短视频个性化推荐任务中表示学习不完整、不充分的关键问题进行深入分析,探索短视频间的共现关系,挖掘其中隐含的用户意图信息,以优化短视频的表示学习,提升个性化推荐质量;提出一种分层的用户意图图神经网络模型,在短视频共现关系图上迭代地进行图卷积与图聚类操作,构建多层次的、由具体到抽象的用户意图表示及其结构,针对性地实现短视频的表示学习优化。(3)基于短视频与社交信息间关系建模的短视频表示学习探索短视频话题标签个性化推荐中存在的复杂关系,提出挖掘短视频与用户偏好、短视频与话题标签语义之间的关联关系,并结合用户对话题标签的使用习惯,显式示建模短视频与社交信息间的关系,提升短视频表示学习质量;提出一种新的基于图卷积网络的短视频话题标签推荐模型,将图卷积方法扩展至短视频-用户-话题标签构成的三部图上,并引入注意力机制,实现图卷积操作中节点间信息的自适应传播,优化短视频的表示学习。(4)基于多种混和关系建模的短视频表示学习以短视频个性化推荐任务为主要研究对象,探索短视频-用户间关系与不同模态信息间关系的混合建模,解决多模态情况下内容信息与用户偏好表示学习的科学问题,实现高质量的短视频个性化推荐;提出多模态图卷积网络模型,在不同模态上分别构建用户-短视频二分图并显式地建模不同模态下用户与短视频间的关系,同时创造性地利用共享参数的梯度反向传播实现跨模态二分图间的信息传递,将两种不同关系嵌入短视频表达向量中,提高短视频表达能力。