论文部分内容阅读
随着网络和多媒体技术的发展以及智能终端的普及,录制各种各样的视频广告并将其投放在网络上传播变得越来越容易,视频广告已经成为当今社会最流行的商业媒介,已经成为公司提升品牌认知度的重要手段。视频广告中的文本主要包括广告商品的名称,商品的生产地,及对商品功能等的说明,是广告视频内容的高度概括,能够充分表现视频内容,因此视频广告文本提取技术对广告视频数据的管理有重要意义。而且视频广告文本提取技术研究可以帮助监管部门自动检测和过滤广告中敏感词汇,保障广告行业健康有序发展。为了能够吸引观众的眼球,视频广告中的文本在字体,排列方式,颜色设计等方面变化多样,表现形式非常复杂。与其他文本提取技术相比,从广告视频中提取文本更具有挑战性。本文主要对现有文本定位,分割和识别技术进行了详细研究,并分析了它们的优势和不足,提出适用于广告视频中文本的定位,分割和识别方法。针对文本定位,采用由粗到细分两阶段的定位方法。首先利用图像的边缘特征和连通区域分析完成文本的粗定位。然后,在有标签协同数据集,利用基于小波分解的频域特征和灰度共生矩阵特征用Co-training算法训练支持向量机,用训练得到的支持向量机完成文本的细定位。基于有标签协同数据集的Co-training算法解决了传统Co-training训练方法容易向训练数据集引入错误分类样本的问题。由于没有公开的视频广告数据集,本文从网络中收集广告文本图像集。针对文本分割,本文采用一种自动种子算法,并将这个算法应用到迭代图割算法中,完成文本的分割。针对文本识别,本文对卷积网络的结构进行了详细的研究和分析,采用了基于卷积神经网络的文本识别程序的思想。在LeNet-5网络模型的基础上,设计了适用于广告视频文本识别的网络结构。为了中文的识别,利用文字生成器,建立文本图片训练数据集,用于学习网络结构。