论文部分内容阅读
随着互联网时代的蓬勃发展、多媒体信息的数据量的暴增以及相关技术的兴起,新闻视频内容的分析成为各大技术导向的企业和研究机构最炙手可热的研究课题之一,它给人们带来了便利的视频服务。正确的新闻故事分析能更加有效的检索到我们想要的片段。在本文中将要提出一种基于主持人场景视觉特性的新闻分析系统,旨在能够在流媒体平台上提供个性化的新闻服务。进行新闻内容的分析,首先要对新闻视频进行结构化分割,由于基于这样一个观察和事实:每个新闻故事片段是由一个主持人场景片段引导的,随后是相关的新闻报道,所以可以利用主持人检测将新闻视频分割成一系列连续的新闻故事段落。因此,新闻视频结构化的分割可以依据主持人场景来进行切分。为了有效的检测主持人场景,系统应用整合了多项关键技术和方法以达到检测效果。首先使用镜头边界检测技术将连续的新闻视频切分成一系列的镜头集合,再从每个镜头中提取关键帧用以代表整个镜头。利用人脸检测技术,检测人脸区域图像,并提取图像特征,包括颜色特征、纹理特征、局部特征等,对多种特征进行融合,构成复合特征描述子。将特征投影至特征空间,用特征空间的距离来度量图像间的相似性,并采用无监督基于图论的聚类方法(最小生成树或自底向上的层次聚类)把相似人脸区域图像聚合成多个簇,通过四条聚类结果选择准则判别主持人类别和非主持人类别,至此,主持人场景检测结束。此后,在视频中标记出主持人场景出现的时间点用以对新闻视频进行结构化分割。另外,利用第四条准则,文中提出的系统能够处理新闻视频出现多个主持人的情况。这四条准则是基于主持入场景在整个视频的时间轴上表现出的时间分布特性提出的。将新闻结构化分割后,针对内容各自独立的新闻视频故事单元,本文提出一种主要人物摘要的方法,用于对故事单元中出现的主要人物进行提取,便于人工对人物进行标注或标记,也为新闻视频内容检索提供索引标记,完善新闻视频内容分析。为检验系统算法的有效性和鲁棒性,评测数据将使用大概时间总长度为21小时新闻节目视频,这些数据来自法国电台和中国中央电台。在主持人检测实验验证中,评测结果能够达到F-measure平均值96%以上的精度。