基于小波神经网络理论的VOCR与HOCR技术研究

来源 :上海大学 | 被引量 : 7次 | 上传用户:yesheng1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息社会的不断发展,人们获得的多媒体信息日益增加。因此,对各种多媒体信息的处理技术就变成了相关领域内学者的重要研究任务。在图像/视频多媒体中,图像和视频中的文字是一种包含丰富信息的对象,通过OCR(Optical Character Recognition)系统自动识别图像上的文字(即Viedo OCR,简称VOCR)对于视频内容分析、检索,图片内容理解等研究领域有着重要应用。不同于其他典型模式(如单个汉字字符模式、人脸模式等),成行的文字在大小、灰度、形状、颜色等属性上具有很强的不一致性,在很多情况下文字还处于复杂的背景中,这给文字的检测和识别带来了巨大的困难。手写体数字识别在OCR中是一个很重要的问题,即HOCR(Handwritten OCR)问题,其研究有着广泛的应用价值,如邮政编码的自动识别与邮件分拣等。将小波神经网络与多小波神经网络理论应用到VOCR和HOCR是作者的尝试。论文的主要工作包括以下几个方面:(1)较深入地探讨了小波、多小波、小波神经网络与多小波神经网络理论,特别是对小波神经网络与多小波神经网络的函数逼近性与收剑性进行了较深入地研究,给出了理论证明,并对db2小波神经网络和GHM多小波神经网络关于非线性函数的逼近功能与收敛性进行了实验验证。实验研究与分析表明,多小波神经网络的收敛速度与逼近效果明显好于单尺度小波神经网络。(2)提出了一种能够自动水平校准检测不同大小、字体、颜色和语种的图像文本信息的鲁棒方法。首先对待测图像进行小波变换,将高频小波系数的分布状况作为文本区与非文本区的统计特征,然后应用K-均值聚类算法分类出图像中的文本区,实现了精确定位。所提出的检测方法的性能通过实验得到了验证。(3)提出了利用小波神经网络提取图像中文本信息的新颖方法。原图像经过离散小波变换分解成四个子频带,文本区域的高频子频带与非文本区域的不同,所以可利用其差异计算出三个特征值作为人工神经网络的输入值,然后用BP神经网络来训练待测的文本区域。文本区域的人工神经网络输出值不同于非文本区域的输出值,因此可利用阈值来判定其是否为文本区域。最后,将可检测的文本区域经过扩张运算后便可得到正确的文本区域。(4)提出了基于Kirsch边缘增强的二维小波特征与二维复小波特征的提取技术。这两类特征与几何特征融合识别手写体数字。进行的手写体数字识别与认证实验表明这两类混合特征的集合能获得很好的识别与认证性能。此外,对所提取的小波特征提取方法的优点进行了讨论。(5)提出了采用多小波神经网络簇伸展轮廓识别手写体数字的新颖方法。该方法首先跟踪待识别数字的轮廓,然后对轮廓进行均衡化和重采样,使其具有平移不变性和缩放不变性,随后采用多小波神经网络簇对轮廓壳进行伸展得到数级多分辨率和其平均值,最后,将这些壳系数输入到前馈神经网络簇,以识别该手写体数字。该方法的主要优越性在于将轮廓壳进行多分辨率分解而又没有低采样。实验表明使用多小波特征进行手写体数字识别是切实可行的。同时对该方法的性能进行了较深入地分析,本文提出的方法比单尺度小波神经网络方法好。
其他文献
今天,中国的企业家面临的创新挑战比以往任何时候都要大,'率先模仿就是创新'的红利越来越薄,几乎不复存在。技术、高度透明性和新兴市场的竞争,使得公司的技术、产品
随着疾病模型研究、新药研发等在小动物活体上观测分子功能的研究需求越来越迫切,各种模式的小动物在体成像系统在生物医学研究中地位越发重要。荧光分子层析成像由于可以在
在现代医院管理系统中,档案管理是其中最重要的一个环节之一。但是在很多医院中,档案管理没有得到相应的重视,存在人才素质严重不足,档案管理资金投入不足,医院档案管理体制建立不
目前,人们不但可以通过互联网和CD-ROM方便快捷地获得多媒体信息,还可以得到与原始数据完全相同的复制品,由此引发的盗版问题和版权纷争已成为日益严重的社会问题。数字水印
北京翠微园小区西里建设的高层住宅共有六幢,各幢结构基本相同,其平面为“Y”三叉型,钢筋混凝土结构,地上24层,高度62m。依小区所处位置而定,每三幢组成一个“C”字形布置(图1)。我
在GIS中使用具有拓扑关系的空间数据,不仅使空间实体数据量大大减少,而且解决了邻接关系和网络关系问题。空间数据拓扑关系的建立一直是GIS研究的重要问题和难点,这一问题被
裂缝是桥梁工程在施工和使用过程中一个常见的质量问题,对于桥梁工程的质量和使用寿命都有着很大的影响。本文对桥梁的施工技术进行了介绍,并就桥梁工程在施工和使用过程中产生
大数据时代在不经意间大踏步地向我们走来,互联网时代引领各个行业加速前进,建筑业刻不容缓.如何利用大数据将建筑做得更美好、更实用、更人性化、更节约更环保、更契合环境
本文以油田的电机、泵与风机为研究对象,开展电机系统节能运行与决策支持系统研究。主要研究内容为:(1)油田电机系统节能运行决策支持系统研究油田电机系统节能运行的决策支
具有真实感的语音同步人脸动画是当今计算机图形学领域的一个热点问题。它在人机交互、娱乐、影视制作和虚拟现实等方面有着非常多的应用。在过去的三十年中,相关领域取得了