基于语义和兴趣的图像/视频检索与认证技术研究

来源 :山东师范大学 | 被引量 : 1次 | 上传用户:long96169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、社交媒体以及移动多媒体终端的迅猛发展,文本、图像、音频、视频等多媒体数据越来越深入地融入到人们的生活、工作、学习中。特别是,随着多媒体应用的日益增多,以图像和视频为主体的多媒体数据的生成、获取、处理和传播变得越来越普及,人们获取信息的载体从传统的文本形式,扩展到了现在以图像和视频为主的多样化的多媒体形式。在当今的信息社会中,图像和视频已经成为了最主要的信息载体,图像和视频检索也逐渐成为人们获取信息的主流途径之一。自从上世纪七十年代图像检索兴起以来,图像和视频检索就一直是信息检索理论研究和实际应用领域中的热点。近年来,随着多媒体技术和各类多媒体应用的蓬勃发展,用户对检索在性能和体验方面的需求不断提升,精准、高效、安全和个性化的检索已经逐渐成为用户的刚性需求。对于一个检索系统来说,从用户确定检索目的、形成查询输入搜索引擎,到检索系统根据查询进行数据的比对匹配,最后检索系统再将数据反馈给用户,构成一个完整、闭合的过程。在整个检索过程中,每一个环节的信息损失和失配都会对检索性能造成影响;因此,本文从目前制约检索性能提升的关键因素出发,针对搜索引擎与数据之间的“语义鸿沟”、用户与查询之间的“意图鸿沟”和数据(或搜索引擎)与用户之间的“信任鸿沟”等三个影响检索性能的关键问题,探讨了解决思路并分别提出了解决方法。从“语义鸿沟”到“意图鸿沟”再到“信任鸿沟”的研究,是满足用户不断提升的检索需求的需要。“语义鸿沟”是指图像和视频的视觉特征与用户对图像和视频理解的语义之间的距离,弥补“语义鸿沟”的目的是能够精准和高效地检索到在主题上与查询匹配的结果。随着用户对检索结果的个性化需求越来越高,对于检索的评价开始从“主题”扩展到“意图”维度上;也就是说,用户希望检索到能够符合其内在搜索意图或者个人兴趣的结果。弥补用户内在的搜索意图与其提交给检索系统的查询之间存在的“意图鸿沟”,就成为了进一步提升检索质量的关键。同时,随着图像和视频的编辑技术越来越普及,图像和视频的伪造和篡改现象越来越严重,致使检索结果的可信性问题逐渐凸显出来。人们对检索结果的信任度与媒体数据自身的可信度之间的差距,即“信任鸿沟”,成为了图像和视频检索领域不得不解决的问题;对检索结果进行可信性认证十分必要。本文针对图像和视频检索中存在的“语义鸿沟”、“意图鸿沟”以及“信任鸿沟”等三个关键问题展开研究,创新性成果主要包括:1、针对“语义鸿沟”问题,以对视频特征的语义表达能力和区分能力要求更高的视频拷贝检测为关注点,提出了一种基于3D CNN的视频拷贝检测方法。该方法采用三维卷积神经网络3D CNN同时捕捉视频空域和时域两个方面的特征,并在降低3D CNN训练过程复杂度和解决数据资源不足两个方面进行了研究。为了降低网络的构建难度和计算复杂度,降低对硬件配置的要求,提出了一种3D CNN组成的并行体系结构,将多分类任务分解为多个二分类任务的组合。由于该并行体系结构中的每个3D CNN仅用作一个二分类器,使得对CNN的训练难度和数据量的要求大大降低。此外,并行3D CNN的网络结构具有对未知类别数据进行分类的能力,并且可以随着新类别的加入而扩展。为了解决数据资源不足的问题,采用等间隔采样的分段方法对视频数据进行了增强处理,保证每个视频段均能最大化呈现视频内容;在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了参考。实验表明,该方法在拷贝检测中得到了很好的效果,所提取的视频特征具有很强的语义表达能力。2、针对“意图鸿沟”问题,以对用户意图和兴趣具有高度依赖的电影推荐系统为参考,提出了一种基于电影推荐的用户兴趣计算方法。该方法根据IMDB以图文并茂的形式进行电影介绍的特点,结合面向图文检索的跨媒体学习方法,构建能够同时体现电影图文信息的特征向量;在进行用户兴趣计算的过程中,在用户评分矩阵的基础上,引入时间因子,在综合用户长期兴趣与短期兴趣对兴趣计算影响的基础上,进行用户兴趣的初始化;然后,将电影的特征向量与初始化用户的兴趣向量进行迭代,获得优化后的用户兴趣;最终,根据计算得到的用户兴趣,通过基于用户的协同过滤的评分预测机制进行电影推荐,采用对电影推荐的评价实现对用户兴趣计算性能的评价。通过在Movielens数据集上的电影推荐进行验证表明,该方法在预测用户兴趣的准确性和收敛性上都有明显的提高,有望在缓解图像和视频检索中的“意图鸿沟”问题方面得到应用。3、针对“信任鸿沟”问题,采用主动认证的方式对图像/视频进行内容完整性和真实性认证,提出了一种保证图像质量的认证水印方法。该方法基于人类视觉系统在视觉感知过程中对不同方向的感知灵敏度差异,利用三个低频系数提取包括图像中水平、垂直和对角线信息的复杂方向特征图。同时,利用每个图像DCT块的直流系数和三个低频交流系数分别生成亮度和纹理特征图,将上述三个特征图进行融合,得到最终的视觉显著图。根据该视觉显著图对JND模型进行优化,将优化后的JDN模型应用于调控认证水印的视觉质量。实验结果表明,提出的水印方案在认证方面有较好的性能。
其他文献
网络媒体出现以前的音乐与社会的交际活动,是由两种(或两类)传播形态所支撑;即音乐的自然传播形态和音乐的技术传播形态。基于互动、参与、自由、开放、协作、去中心化的传播
<正> 在高中物理教学中,磁场力是重要内容之 一,但磁场对通电液体的作用力,没有相应的 演示仪器,部分学生在解这类问题时,缺乏感 性知识,总是半信半疑。我们利用随手可取的
<正> 4.2 干燥器常见故障及排除在干燥器(冷冻式的)的故障排除中,对其制冷压缩机的故障判断和排除较为困难。其主要原因是拆卸比较麻烦和安装工艺有较高的技术要求;再者进口
论文以电力设备预警需求为基础;以实现降低设备维护成本为目标;在分析目前设备运行系统的运行记录基础上实现设备运行故障的判断、识别。在Web桌面端与移动端实现电力设备运
目的:研究三级中医院持续改进活动对中医护理技术在医院临床应用影响,分析总结有效方法,推动中医护理技术的临床应用。方法:比较改进活动开展后2013~2014年来江苏省淮安市中
现代行政国家的发展,不断地为行政法学带来诸多研究新课题,除了传统基础理论的研究继续深化外,具体理论的研究也越来越引起学界的关注。作为行政法追求程序正义直接价值的重
<正>近来,学界围绕当代美术理论进行了十分热烈的讨论,各种观点都得到了相应的表达。在笔者看来,这是一种新的信号,十分令人鼓舞。随着中国经济社会获得快速发展,中国文化现
研究了由地沟油制备生物柴油的工艺,通过正交试验得到地沟油预酯化反应的最佳条件是:浓硫酸用量为2%、甲醇用量为16%、反应温度75℃、反应时间4 h;地沟油酯交换反应的最优工
呼吸机是ICU急救中十分重要的生命支持设备,ICU呼吸机的日益广泛应用,使得因呼吸衰竭而死亡的病人数量在逐渐降低。然而呼吸机在ICU应用过程中,如果消毒管理维护不当,也容易
随着各类高端武器不断发展,弹药的毁伤性越来越大,使得弹药在贮存、维护以及使用的过程中,合理地保存变得尤为重要。弹药在受到意外热刺激、直接受到火焰烤燃或者在战场上受