论文部分内容阅读
通过下一代视频搜索平台,您将可以试着寻找“1984年倪萍主持的春节晚会,坐在第三排观众的衣服是什么颜色”这类问题的答案。
范伟和赵本山的小品里面几年不变的道具是什么?您可能认为是他卖拐的“拐”。但其实通过一个叫OpenV的视频搜索平台,您会发现事实上真正不变的是范伟的一双白球鞋。
该搜索网站的视频帧搜索技术,能够自动进行与视频画面配对的语音识别,实现对视频的镜头级搜索。
央视国际运营总监问题就对记者表示,他的团队有时就需要回答和上面类似的牛角尖问题。以前为了找到一个特定的镜头,需要进行费时费力的人工寻找,但OpenV的视频搜索引擎使得他们的效率直线上升。
准确到帧的搜索技术
OpenV的内核来自英国著名非结构化处理公司Autonomy,是相对于第一代视频搜索技术而言的基于图像和语义的下一代智能搜索技术。
第一代视频搜索主要依赖对视频文件名称和属性进行分析,从而给出搜索结果。这种搜索的缺陷是,需要网络编辑和普通网民的大量精细工作,才能得到相关搜索结果。例如:赋予视频合适的文件名,输入一些描述视频的关键词,将这些发布上网,搜索引擎捕捉这些文件名,分析关键词等。
第二代视频搜索技术,不依赖网络编辑和网民的工作。它将视频文件中的视频信号和语音信号分开,同步处理。视频以镜头为最小单位切分、标注出来,同步的语音和字幕转化为文本供搜索引擎分析检索。第二代视频搜索技术更加自动化,能够直接将大量的电影、电视节目通过技术手段处理上线。并且,在文字信息更丰富的情形下,能够直接搜索定位某个镜头,或对应这个镜头的某句台词。
2007 年中央电视台春节联欢晚会就运用了OpenV提供的第二代视频技术,所有节目在播出后的 20 分钟内,就能够在央视国际网站上搜索到。网民只需要输入一句台词,就能直接从相应的镜头开始播放。
根据易观国际 2006 年底发布的搜索引擎市场监测报告,中国互联网视频分享类网站内容重合率达到70%。因此,当用户得到视频搜索列出的一大堆杂乱无章的结果后,另一个问题出现了——究竟哪个才是我想要的?在实现了精确的查找后,第二代视频搜索引擎要做的就是良好的呈现——让用户快速了解一段视频完整的内容。
同时,第二代的搜索引擎还加入了Web2.0元素——用户可以将搜索结果上传,建立一面视频墙,并以个性化的关键词与之对应,并可收藏及分享。这种功能将大幅改善现有视频共享社区的用户体验,增加用户黏性。
广告前景无限
视频搜索是一项不断发展的技术,更是一个平台。在这个平台的基础上,可以发展出更多更有趣的应用。
由于受到技术发展的限制,目前市场上的产品还只能做到在一段视频的头、尾位置插入广告,无法做到与视频内容相匹配的智能插入。而OpenV试图开创了一个新的产品形态,即将视频注入到一个常见的搜索中,形成了视频搜索。在未来,Openv考虑建立一个播放器系统,将搜索、社区、播客、视频墙注入到播放器里面。
OpenV还保留了搜索引擎中最精粹的关键词体系,并希望发展出更符合用户利益的应用。例如,目前已经推出的beta版的Oma,实现用一个关键词呼叫出一个主题电视墙,将来还会实现用一个关键词呼叫出一个城区的交通状况全景、一个用户的播客或一个旅游景区的全景,甚至用一个关键词,呼叫出即将到来的2008年奥运会各个场馆的实况。
链接:微软的智能视频搜索技术
即使是一段很短的视频,也可能包含着诸多内容,比如,山水场景、人物对话,甚至还有一只卧在角落里的猫。在以文字为索引的视频搜索引擎中,是不太可能搜到这只猫的——很多类似的细节信息也都被遗忘了。
为了解决视频说明内容有限、不够全面的问题,微软亚洲研究院正在研发一种能够搜索到视频里面去的索引方式。这种基于内容的索引方式,会首先教搜索引擎认识被搜索对象的形象,并把其翻译为文本,以此建立索引。比如,如果要搜索棒球比赛中的投球动作翻译成球从投球区投给击球手的一幕,通过这种内容索引的方式就可以准确查到了。
内容索引作为文字索引的有效补充,可以使搜索引擎实现更为精确的查询。而上述操作有个前提,即需要人为设定一些训练数据,让搜索引擎进行学习,也就是说,要让其知道什么场景才是投球。据微软的专家介绍,未来将可能完全脱离训练数据,让搜索引擎直接通过网络进行智能学习。
链接:视频搜索的“台前幕后”
采用非结构化数据处理技术,结合视频采集和语音识别技术,可实现视频的索引、查询及关联。视频搜索包括两部分:后台处理和前端展示。
1.后台处理
数字化。利用视频采集技术,将电视节目录制成几种不同码流的视频文件,以适应各种播放要求。
语音识别。利用语音识别技术自动将语音转换成文字,并按时间点与视频播放一一对应。
自动抽帧。根据具体需求抽取特定时间点的画面,并根据每一帧的画面定位到当前位置进行播放。
根据内容定位视频。时间点切分技术可将单个视频新闻或者其他的节目根据内容切分成小段视频进行播放,从而可以按照查询词精确定位到最相关的视频内容,然后进行播放。
流播放。利用流媒体播放的技术提高用户观看视频资讯和节目的体验。
2.前端展示
对结果集筛选、排序。对数据按照数据源以及具体字段进行各种分类和组合,满足各种情况的查询要求。根据视频内容的相关度和时间进行排序,并且可以根据具体需求,采用混合相关度和时间的排序方式,指定测重点进行排序。
自动摘要、自动关联。针对长内容视频,可以根据具体内容,指定不同的摘要生成方法(例如:快速生成、按内容生成等),自动生成指定字数的内容简介。也可以根据具体情况,按照不同关联要求,自动推送多条相关视频资源。
多格式预览。为提高用户感受,解决现今网络上出现最频繁的死链问题,尤其是视频文件有更新速度快、不易保存的问题,可以为每段视频制作flv、Swf等多种流媒体格式的预览,让用户在即使碰到死链的情况也可以观看部分精彩视频内容。
搜索词、句、段。对查询词、句子甚至一段话进行分析、匹配,将最相关的内容展现在用户面前。
电视墙。网络电视墙展示功能集视频预览、内容简介、分类显示、点击播放于一身,浓缩了当前日以万计的视频资源,可以将最有价值的视频展现在用户面前。
范伟和赵本山的小品里面几年不变的道具是什么?您可能认为是他卖拐的“拐”。但其实通过一个叫OpenV的视频搜索平台,您会发现事实上真正不变的是范伟的一双白球鞋。
该搜索网站的视频帧搜索技术,能够自动进行与视频画面配对的语音识别,实现对视频的镜头级搜索。
央视国际运营总监问题就对记者表示,他的团队有时就需要回答和上面类似的牛角尖问题。以前为了找到一个特定的镜头,需要进行费时费力的人工寻找,但OpenV的视频搜索引擎使得他们的效率直线上升。
准确到帧的搜索技术
OpenV的内核来自英国著名非结构化处理公司Autonomy,是相对于第一代视频搜索技术而言的基于图像和语义的下一代智能搜索技术。
第一代视频搜索主要依赖对视频文件名称和属性进行分析,从而给出搜索结果。这种搜索的缺陷是,需要网络编辑和普通网民的大量精细工作,才能得到相关搜索结果。例如:赋予视频合适的文件名,输入一些描述视频的关键词,将这些发布上网,搜索引擎捕捉这些文件名,分析关键词等。
第二代视频搜索技术,不依赖网络编辑和网民的工作。它将视频文件中的视频信号和语音信号分开,同步处理。视频以镜头为最小单位切分、标注出来,同步的语音和字幕转化为文本供搜索引擎分析检索。第二代视频搜索技术更加自动化,能够直接将大量的电影、电视节目通过技术手段处理上线。并且,在文字信息更丰富的情形下,能够直接搜索定位某个镜头,或对应这个镜头的某句台词。
2007 年中央电视台春节联欢晚会就运用了OpenV提供的第二代视频技术,所有节目在播出后的 20 分钟内,就能够在央视国际网站上搜索到。网民只需要输入一句台词,就能直接从相应的镜头开始播放。
根据易观国际 2006 年底发布的搜索引擎市场监测报告,中国互联网视频分享类网站内容重合率达到70%。因此,当用户得到视频搜索列出的一大堆杂乱无章的结果后,另一个问题出现了——究竟哪个才是我想要的?在实现了精确的查找后,第二代视频搜索引擎要做的就是良好的呈现——让用户快速了解一段视频完整的内容。
同时,第二代的搜索引擎还加入了Web2.0元素——用户可以将搜索结果上传,建立一面视频墙,并以个性化的关键词与之对应,并可收藏及分享。这种功能将大幅改善现有视频共享社区的用户体验,增加用户黏性。
广告前景无限
视频搜索是一项不断发展的技术,更是一个平台。在这个平台的基础上,可以发展出更多更有趣的应用。
由于受到技术发展的限制,目前市场上的产品还只能做到在一段视频的头、尾位置插入广告,无法做到与视频内容相匹配的智能插入。而OpenV试图开创了一个新的产品形态,即将视频注入到一个常见的搜索中,形成了视频搜索。在未来,Openv考虑建立一个播放器系统,将搜索、社区、播客、视频墙注入到播放器里面。
OpenV还保留了搜索引擎中最精粹的关键词体系,并希望发展出更符合用户利益的应用。例如,目前已经推出的beta版的Oma,实现用一个关键词呼叫出一个主题电视墙,将来还会实现用一个关键词呼叫出一个城区的交通状况全景、一个用户的播客或一个旅游景区的全景,甚至用一个关键词,呼叫出即将到来的2008年奥运会各个场馆的实况。
链接:微软的智能视频搜索技术
即使是一段很短的视频,也可能包含着诸多内容,比如,山水场景、人物对话,甚至还有一只卧在角落里的猫。在以文字为索引的视频搜索引擎中,是不太可能搜到这只猫的——很多类似的细节信息也都被遗忘了。
为了解决视频说明内容有限、不够全面的问题,微软亚洲研究院正在研发一种能够搜索到视频里面去的索引方式。这种基于内容的索引方式,会首先教搜索引擎认识被搜索对象的形象,并把其翻译为文本,以此建立索引。比如,如果要搜索棒球比赛中的投球动作翻译成球从投球区投给击球手的一幕,通过这种内容索引的方式就可以准确查到了。
内容索引作为文字索引的有效补充,可以使搜索引擎实现更为精确的查询。而上述操作有个前提,即需要人为设定一些训练数据,让搜索引擎进行学习,也就是说,要让其知道什么场景才是投球。据微软的专家介绍,未来将可能完全脱离训练数据,让搜索引擎直接通过网络进行智能学习。
链接:视频搜索的“台前幕后”
采用非结构化数据处理技术,结合视频采集和语音识别技术,可实现视频的索引、查询及关联。视频搜索包括两部分:后台处理和前端展示。
1.后台处理
数字化。利用视频采集技术,将电视节目录制成几种不同码流的视频文件,以适应各种播放要求。
语音识别。利用语音识别技术自动将语音转换成文字,并按时间点与视频播放一一对应。
自动抽帧。根据具体需求抽取特定时间点的画面,并根据每一帧的画面定位到当前位置进行播放。
根据内容定位视频。时间点切分技术可将单个视频新闻或者其他的节目根据内容切分成小段视频进行播放,从而可以按照查询词精确定位到最相关的视频内容,然后进行播放。
流播放。利用流媒体播放的技术提高用户观看视频资讯和节目的体验。
2.前端展示
对结果集筛选、排序。对数据按照数据源以及具体字段进行各种分类和组合,满足各种情况的查询要求。根据视频内容的相关度和时间进行排序,并且可以根据具体需求,采用混合相关度和时间的排序方式,指定测重点进行排序。
自动摘要、自动关联。针对长内容视频,可以根据具体内容,指定不同的摘要生成方法(例如:快速生成、按内容生成等),自动生成指定字数的内容简介。也可以根据具体情况,按照不同关联要求,自动推送多条相关视频资源。
多格式预览。为提高用户感受,解决现今网络上出现最频繁的死链问题,尤其是视频文件有更新速度快、不易保存的问题,可以为每段视频制作flv、Swf等多种流媒体格式的预览,让用户在即使碰到死链的情况也可以观看部分精彩视频内容。
搜索词、句、段。对查询词、句子甚至一段话进行分析、匹配,将最相关的内容展现在用户面前。
电视墙。网络电视墙展示功能集视频预览、内容简介、分类显示、点击播放于一身,浓缩了当前日以万计的视频资源,可以将最有价值的视频展现在用户面前。