论文部分内容阅读
随着互联网、社交媒体以及移动多媒体终端的迅猛发展,文本、图像、音频、视频等多媒体数据越来越深入地融入到人们的生活、工作、学习中。特别是,随着多媒体应用的日益增多,以图像和视频为主体的多媒体数据的生成、获取、处理和传播变得越来越普及,人们获取信息的载体从传统的文本形式,扩展到了现在以图像和视频为主的多样化的多媒体形式。在当今的信息社会中,图像和视频已经成为了最主要的信息载体,图像和视频检索也逐渐成为人们获取信息的主流途径之一。自从上世纪七十年代图像检索兴起以来,图像和视频检索就一直是信息检索理论研究和实际应用领域中的热点。近年来,随着多媒体技术和各类多媒体应用的蓬勃发展,用户对检索在性能和体验方面的需求不断提升,精准、高效、安全和个性化的检索已经逐渐成为用户的刚性需求。对于一个检索系统来说,从用户确定检索目的、形成查询输入搜索引擎,到检索系统根据查询进行数据的比对匹配,最后检索系统再将数据反馈给用户,构成一个完整、闭合的过程。在整个检索过程中,每一个环节的信息损失和失配都会对检索性能造成影响;因此,本文从目前制约检索性能提升的关键因素出发,针对搜索引擎与数据之间的“语义鸿沟”、用户与查询之间的“意图鸿沟”和数据(或搜索引擎)与用户之间的“信任鸿沟”等三个影响检索性能的关键问题,探讨了解决思路并分别提出了解决方法。从“语义鸿沟”到“意图鸿沟”再到“信任鸿沟”的研究,是满足用户不断提升的检索需求的需要。“语义鸿沟”是指图像和视频的视觉特征与用户对图像和视频理解的语义之间的距离,弥补“语义鸿沟”的目的是能够精准和高效地检索到在主题上与查询匹配的结果。随着用户对检索结果的个性化需求越来越高,对于检索的评价开始从“主题”扩展到“意图”维度上;也就是说,用户希望检索到能够符合其内在搜索意图或者个人兴趣的结果。弥补用户内在的搜索意图与其提交给检索系统的查询之间存在的“意图鸿沟”,就成为了进一步提升检索质量的关键。同时,随着图像和视频的编辑技术越来越普及,图像和视频的伪造和篡改现象越来越严重,致使检索结果的可信性问题逐渐凸显出来。人们对检索结果的信任度与媒体数据自身的可信度之间的差距,即“信任鸿沟”,成为了图像和视频检索领域不得不解决的问题;对检索结果进行可信性认证十分必要。本文针对图像和视频检索中存在的“语义鸿沟”、“意图鸿沟”以及“信任鸿沟”等三个关键问题展开研究,创新性成果主要包括:1、针对“语义鸿沟”问题,以对视频特征的语义表达能力和区分能力要求更高的视频拷贝检测为关注点,提出了一种基于3D CNN的视频拷贝检测方法。该方法采用三维卷积神经网络3D CNN同时捕捉视频空域和时域两个方面的特征,并在降低3D CNN训练过程复杂度和解决数据资源不足两个方面进行了研究。为了降低网络的构建难度和计算复杂度,降低对硬件配置的要求,提出了一种3D CNN组成的并行体系结构,将多分类任务分解为多个二分类任务的组合。由于该并行体系结构中的每个3D CNN仅用作一个二分类器,使得对CNN的训练难度和数据量的要求大大降低。此外,并行3D CNN的网络结构具有对未知类别数据进行分类的能力,并且可以随着新类别的加入而扩展。为了解决数据资源不足的问题,采用等间隔采样的分段方法对视频数据进行了增强处理,保证每个视频段均能最大化呈现视频内容;在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了参考。实验表明,该方法在拷贝检测中得到了很好的效果,所提取的视频特征具有很强的语义表达能力。2、针对“意图鸿沟”问题,以对用户意图和兴趣具有高度依赖的电影推荐系统为参考,提出了一种基于电影推荐的用户兴趣计算方法。该方法根据IMDB以图文并茂的形式进行电影介绍的特点,结合面向图文检索的跨媒体学习方法,构建能够同时体现电影图文信息的特征向量;在进行用户兴趣计算的过程中,在用户评分矩阵的基础上,引入时间因子,在综合用户长期兴趣与短期兴趣对兴趣计算影响的基础上,进行用户兴趣的初始化;然后,将电影的特征向量与初始化用户的兴趣向量进行迭代,获得优化后的用户兴趣;最终,根据计算得到的用户兴趣,通过基于用户的协同过滤的评分预测机制进行电影推荐,采用对电影推荐的评价实现对用户兴趣计算性能的评价。通过在Movielens数据集上的电影推荐进行验证表明,该方法在预测用户兴趣的准确性和收敛性上都有明显的提高,有望在缓解图像和视频检索中的“意图鸿沟”问题方面得到应用。3、针对“信任鸿沟”问题,采用主动认证的方式对图像/视频进行内容完整性和真实性认证,提出了一种保证图像质量的认证水印方法。该方法基于人类视觉系统在视觉感知过程中对不同方向的感知灵敏度差异,利用三个低频系数提取包括图像中水平、垂直和对角线信息的复杂方向特征图。同时,利用每个图像DCT块的直流系数和三个低频交流系数分别生成亮度和纹理特征图,将上述三个特征图进行融合,得到最终的视觉显著图。根据该视觉显著图对JND模型进行优化,将优化后的JDN模型应用于调控认证水印的视觉质量。实验结果表明,提出的水印方案在认证方面有较好的性能。