论文部分内容阅读
随着网络和计算机技术的发展,如何对网络上爆炸性增长的多媒体数据进行有效的分析和检索已经成为多媒体内容分析领域亟待解决的问题。为了对这个问题进行分析并提出相应的解决方法,本文对三种重要的网络多媒体数据(海量部分内容重复图片、海量语义相似图片、音乐视频和电影视频)的有效检索方法进行了研究。本文首先对三种数据各自的内容特点和对应的检索问题进行了讨论,然后从三个不同的认知层次:底层特征匹配层、语义理解层、情感理解层,分别对这三种数据的内容分析和检索算法进行了深入的研究。
对于海量部分内容重复图片(large-scale partical-duplicate images),本文提出了基于底层局部视觉特征提取与匹配的检索研究。为了实现快速准确的局部特征匹配,本文提出了新的图片视觉单词特征:描述性视觉单词、描述性视觉词组和上下文视觉单词。和传统视觉单词相比,描述性视觉单词和描述性视觉词组对图片中的物体具有更强的描述能力,所以更适合表达图片中的视觉内容。上下文视觉单词一定程度上改善了传统感兴趣点检测方法的不足,克服了传统视觉单词丢失空间信息和语义上下文信息而导致的描述能力差的问题。本文在海量图片检索任务中对提出的视觉单词特征进行了测试。实验结果显示,本文提出的新特征在保证较高检索效率的同时,取得比传统的视觉单词特征更高的检索准确率。基于提出的新特征,本文最终实现了一个海量部分内容重复图片检索系统,并将该系统应用到了不同的图片检索任务中。
对于海量语义相似图片,本文提出了基于图片语义理解的检索研究。通过挖掘和提取海量弱标注网络图片中的有用知识,本文生成了更加紧凑、有效的知识库:ObjectBook和ObjectNet。ObjectBook由经过标注的图片区域组成,它可以作为知识库应用于K近邻算法中对未知图片进行标注。ObjectNet除了包含标注过的图片区域,还含有不同物体之间的共生信息。利用共生信息,基于ObjectNet的图片标注算法可以获得更好的标注准确率。ObjectBook和ObjectNet从海量网络图片库中学习得到,所以相对于传统的图片标注算法,它们能更好的适用于海量图片标注任务。另外,在ObjectBook和ObjectNet的基础上,本文还提出了基于倒排表的图片索引和检索算法。本文在海量图片标注和图片语义检索任务中对提出的方法进行了测试。实验结果显示,ObjectBook和ObjectNet可以实现高效、准确的图片语义标注和图片语义检索。
对于网络电影视频和音乐视频,本研究并提出了基于视频情感信息理解和情感可视化的检索研究。本文使用心理学维度情感模型对视频情感进行表示,使用支持向量回归模型(Support Vector Regression,SVR)对不同的情感维度分量进行建模,并利用用户反馈信息实现了个性化情感模型学习。本文还对不同音视频特征在视频情感分析中的有效性进行了验证。为了将抽象的情感变得直观、具体,本文提出了情感可视化方法。情感可视化方法可以作为情感分析方法与用户之间的桥梁,能直观地向用户展示视频中包含的情感信息,并能有效的接收用户的情感查询输入。本文通过用户研究(user study)的方式构建了测试数据集,并对基于情感的视频检索性能和情感可视化方法进行了测试。实验结果显示,本文提出的情感分析方法具有较高的准确度,提出的情感可视化方法比现有的情感信息表达方法更加直观有效。基于提出的情感分析算法和情感可视化方法,本文最终实现了两个应用原型系统:P.Video和Movie Affective Player。