高清视频文本的提取与识别

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yigenjin2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频文本的提取与识别具有广阔的应用前景,在诸如汽车自动驾驶、机器模式识别和视频检索上都能够发挥重要的作用。目前视频的检索还是停留在人为地标记上,对于视频本身内容的检索已经得到了研究者们的关注,基于内容的处理同样也是下一代视频编码的主要目的。而在对内容的理解上,最容易获得研究突破的就是对视频文本的识别上。在对视频文本的分类上,可以将其分为标题文本和场景文本,区别在于是否是后期人为添加的。在本文中,分别对于主要的文本处理步骤即文本检测以及文本识别上提出了可行方法,应用了文本的特征,并进行了分类器的分类处理,从而能够处理复杂的文本。首先,针对目前视频文本的主要研究还处在对于水平方向的文本研究、对视频选取是具有高对比度的文本上,本文在研究的内容是对于任意方向的场景文本进行处理;其次,针对目前视频文本受限于文本特征的多样性、视频的低分辨率、复杂的背景像素等问题,本文在文本检测环节首先使用梯度向量流获得文本的边界并去除大部分的背景,之后使用了两次分类器再次去除其中的背景,从而获得文本的位置并用文本框标记出来;在获得文本框后,对于其中的文本将进行切割处理,在分别对于字符是否存在粘连的情况进行讨论后,将获得的字符送入到OCR中进行检测,最终获得文本。实验表明,本文提出的方法能够对任意方向的文本进行处理,并获得其中的文本,从而完成需求。
其他文献
混凝土材料现世以来,随着经济的迅速发展,各种各样的建筑物层出不穷,越来越多的问题也相应暴露了出来。由于混凝土材料的多孔性及钢筋易锈蚀的特点,各个国家每年都在钢筋混凝土结构的锈蚀问题上浪费了很大一笔财力。BFRP材料由于其耐腐蚀的特点,成为一种创新的解决方案。但BFRP筋的弹性模量较小,使得BFRP筋混凝土梁容易出现较大的裂缝和挠度。为了解决钢筋混凝土梁的耐久性问题与BFRP筋混凝土梁正常使用时变形
随着经济的突飞猛进和信息时代的来临,移动通信和各式的电器设备更加普遍的运用于人们的生活以及周边环境,它为人们带来了丰富的科技财富以及前所未见的新科学,与此同时,更将
中枢神经系统(Central nervous system,CNS)轴突损伤是神经退行性疾病的主要诱因之一,临床上症状主要有记忆力衰退,主要相关疾病有老年痴呆症、抑郁症等。哺乳动物的神经元和
隐喻是人们日常生活中常见的语言现象,也是语言学领域研究的重要课题之一。隐喻不仅仅存在与语言中,同样存在于图像、声音、手势等不同的模态系统之中。平面公益广告是一种典型的多模态语料,包含语言和图片两种模态,并蕴藏着丰富的隐喻。因此,对公益广告的多模态隐喻进行研究具有理论及现实意义。本文以Forceville&Urios-Aparisi的多模态隐喻理论和Kress&Van Leeuwen
学位
随着计算机性能的不断提高,图像处理的应用也越来越深入到各行各业。数字图像处理中对于图像成分复杂的图像的处理尤为困难,且很多算法是只针对一类图像,当面对不同类别的图
如今科技发展迅速,互联网数据正在以惊人的速度增长。越来越多的人意识到处理如此大规模数据的重要性。搜索引擎作为当今重要的信息获取工具,在面对数据量剧增的网页信息时,
社会网络分析在近些年得到了飞速的发展,这主要归功于社交软件用户的爆发式增长,产生了数量庞大的社会网络。这一现象给研究人员带来了大量的研究样本,促使一些优秀而高效的
EFVS被称为增强飞行视景系统,其作用是通过前视红外线、毫米波雷达或其他技术使飞行员在低能见度的情况下清晰的观察到飞机等航空器前方的动态景象,使飞机飞行更加安全可靠。
跨膜多肽和蛋白在生物膜中的正确取向是其具有生物活性的先决条件,但是目前相关的系统性研究还非常缺乏,因此找出决定跨膜多肽和蛋白取向的主要因素并揭示其作用规律和机理,
随着科学技术的发展,各行各业对自动化程度的要求越来越高。指针仪表由于抗电磁干扰、可靠性高等优点仍广泛应用于生产生活的各个领域。由于指针仪表示数读取主要采用人工方