基于ASR文本的视频语义概念检测技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：zgrong

【摘要】

：

视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升，网络视频数据量呈爆炸式增长，从浩瀚的视频数据库中检索感兴趣的资源，传统的基于关键词

【作者】

：

冉渊渊

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2008年期

【关键词】

：

视频检索高层语义特征文本分类语义概念融合概念相关性自动语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升，网络视频数据量呈爆炸式增长，从浩瀚的视频数据库中检索感兴趣的资源，传统的基于关键词的数据库检索方法越来越难以实现。其原因在于许多情况下很难用一个或多个关键词来充分描述视频中的丰富信息，而且这种描述也存在很大的主观性。另外，用户很难将其需求清晰的表达出来。所以人们希望只要给出例子或特征描述，系统就能自动地找到所需的视频片断。于是基于内容的视频检索技术应运而生，并成为一个新的研究领域。　　视频语义特征提取是基于内容的视频检索中的一个关键环节。其任务就是将二进制的底层特征映射到语义特征，实现对视频的语义标注。但是，底层特征和用户需求的语义特征之间存在着“语义鸿沟”。通过在底层特征和用户需求之间增加一个语义概念层可以填补上述鸿沟。定义一些基本的语义概念，比如场景类概念(室内/室外、水景、城市等)、物体类概念(如汽车、建筑、动物等)等，然后分别建立从底层特征到概念以及从概念到用户需求的两层映射，以提高视频检索的性能。其中，建立底层特征到高层特征的映射过程称为高层特征提取，又称为语义概念检测。　　本文针对视频语义概念检测中的问题，研究如何使用自动语音识别ASR(Automatic Speech Recognition)文本对视频语义概念进行检测和融合。本文主要完成了三部分工作：　　 1.设计并实现了ASR文本提取高层特征的系统，对ASR视频文本进行提取关键词等处理之后通过支持向量机(SVM)进行训练和测试，建立了高层语义概念检测器。同时，提出了一种新的基于WordNet扩展的ASR文本分类方法，首次将WordNet用于扩展文本关键字集合，选择对文本关键字集中的名词使用了WordNet扩展，具体通过同义关系(Synonym)扩展、下义关系(Hyponym)扩展和上义关系(Hypernym)扩展，提高了分类的准确率。　　 2.由于通过ASR文本特征来提取高层特征的过程，也可以认为是一种文本分类问题，所以除了SVM之外，将两种主流文本分类方法Naive Bayes和K-NN算法也应用到了系统当中，对ASR文本进行分类，分类结果的每一个类别即对应一个提取出的高层特征。我们对两种方法的性能做了测试，并同支持向量机(SVM)方法做了比较，研究结果表明，K-NN算法检测结果精度最高，而SVM方法算法执行速度最高。　　 3.为了得到更好的语义概念检测结果，一方面在得到基于ASR文本提取的高层特征结果之后，将其同视觉、音频等多模态特征融合，研究了OWA、Adaboost等基于多模态的语义概念融合方法；另一方面，对概念相关性也做了研究，并研究了基于上下文的概念融合(Context Based Concept fusion)和基于伪相关反馈的重排序(Pseudo Relevant Feedback-Based Re-ranking)等算法。　　整个实验平台基于TRECVID开发。TRECVID是由美国国家标准技术研究院(NIST)发起的一个视频检索国际权威评测。鉴于语义概念检测的重要性，TRECVID将其作为一个专门的高层特征提取(High Level Feature Extraction)任务，每年都进行评测。分别在TRECVID2007的数据集和04-06年的新闻视频数据集上对提出的改进文本分类算法和多种融合方法进行了实验。　　实验结果说明了通过多模态特征融合、概念相关性融合等方法，文本对视频语义概念检测有着重要辅助的作用，并且验证了作者提出的基于WordNet扩展的改进ASR文本分类方法能提高语义概念检测性能。　　

其他文献

支持MPI通信行为分析的编译技术研究

显式并行程序中通信模式的抽取，对于并行程序性能调优具有重要的意义。很多与并行程序性能相关的优化都需要对通信特征进行分析。另外在并行程序设计和开发过程中，对于程序正确

学位

进程映射通信特征分析程序切片显式并行程序通信模式

基于单张照片的三维卡通模型合成研究

三维卡通形象是指既具有真实人脸的可鉴别特征、又有夸张艺术效果的虚拟模型。近些年来，随着数字特效技术的不断创新以及计算机处理能力的增强，三维卡通在动漫影视、网络游戏、

学位

三维卡通机器学习纹理合成流形学习可鉴别特征虚拟模型

复杂背景下手的检测、跟踪与识别

随着计算机技术的发展，传统的人机交互技术已难以适应越来越复杂多样的需求。用户要求更加自然和智能的交互方法，包括声音、视觉和智能传感器等等。其中基于计算机视觉的方法具

学位

人机手势交互粒子滤波主动形状模型计算机视觉虚拟现实高斯建模

可配置的WiMAX和TD-SCDMA双模终端基带芯片结构研究

近年来，WiMAX技术凭借包括Intel公司等在内的众多国际厂商的支持，发展十分迅速。2007年10月，WiMAX的TDD模式被国际电信联盟大会正式批准为第三代移动数字通信标准，为其在全世界范

学位

基带芯片第三代移动数字通信多模终端芯片星座图分析多时钟域策略时分同步码分多址

空间飞行器编队重构建模与规划方法研究

编队重构是实现空间飞行器编队飞行的一项关键技术，也是自动导航和控制的重要研究领域，无论在理论研究还是实际应用上都具有重大意义。本论文针对空间飞行器编队重构问题展开了

学位

空间飞行器编队飞行编队重构轨道规划协同规划多目标优化

基于呈现信息的手机应用的设计与实现

为解决何时通信、选择何种方式通信的问题，“呈现信息”应运而生。　　呈现信息表达的是用户进行通信的能力和意愿。通过呈现信息的协助，人们可以选择最恰当的时间、使用最合

学位

呈现信息手机应用多媒体技术视频共享

对等网络拓扑结构及其复杂查询研究

对等网络技术能够准确高效地提供精确匹配和多关键字查询等简单查询服务，是解决计算机网络中大规模信息资源共享的重要手段。然而随着网络规模的快速增长，拓扑结构多元化及用户

学位

对等网络拓扑结构路由算法复杂查询分布式索引语义链

面向虚拟机管理的机群高可用服务研究

机群是一组协同工作的独立计算节点的集合，作为一个整体对外提供计算资源和服务。大规模数据中心一直是机群应用的重要领域。随着社会信息化程度的不断提高，数据中心开始在商业

学位

机群操作系统资源利用可扩展性虚拟机

多形态CPU模拟

在计算机技术发展过程中，模拟一直是一个重要的工具。模拟器是运行在一个平台上的特殊程序，它模拟了另外一个平台所具有的特征。模拟器由于其灵活性，被广泛用于体系结构研究、系

学位

模拟器复杂应用程序性能评测软件移植CPU模拟单元回调函数

AVS视频解码的错误检测与隐藏技术研究

码流错误检测与恢复技术一直是数字信号在信道中传输的研究热点，围绕AVS视频解码容错系统方案，本论文的结构安排如下:　　第一章为绪论。　　第二章对视频编解码标准的发展

学位

视频解码码流错误检测容错系统隐藏技术

基于ASR文本的视频语义概念检测技术研究

与本文相关的学术论文