多种类海量票据图像的压缩存储研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:QQ81886788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以机票图像为例,提出了一种将图像的背景信息与前景信息分离,对同类图像仅保存一幅背景,再对其分别进行编码的多种类海量机票图像的压缩方法,与对图像直接进行压缩的方法相比,总体压缩比有显著的提高,并且解压图像的视觉质量良好。主要的内容如下: 1.针对海量票据的特点,设计了一种行之有效的压缩存储方案。此方案以如何有效地消除票据图像间的冗余信息为主要目标,同时兼顾考虑压缩方案在实际应用中的可行性,使得方案适合于实际应用中的各种复杂情况。 首先提出了一种基于背景与前景分离的票据图像压缩方案,此方案对同类票据图像仅保存一个副本。然后根据实际中类别过多及字符层无法保证分离的情况,提出了一种改进的方案。改进方案首先确定一个图像类型库,将输入图像分为属于类型库的规范图像类别及不属于图像库两大类,对属于类型库的图像,采用前景背景分离的压缩方法,对不属于的采用直接编码的方法。同时,采用了针对字符区域差分编码方法,保证图像质量的同时也最大限度的缩小存储空间。为了保证能处理少数字符区域都难以检测的情况,将本文的压缩方案与识别部分相结合,利用识别的结果确定编码方法。 2.机票图像的信息分层。将机票图像分割为字符信息层、表格层和背景信息层。由于各层信息之间互相间存在重叠,能否将有用的字符信息有效的提取出来对本文的压缩方案至关重要,同样对于字符的识别,字符的分割也是关键的环节之一。本文首先选用合适的阈值分割方法粗略提取文字信息区域,而后通过去除表格线、噪声及固定打印小字符等一系列步骤,最终将字符层很好的进行了分离;表格线对于票据而言是一个重要的版面特征,表格特征是票据分类的一个重要依据,表格线的提取效果同时也会影响字符层的提取。本文对表格线表格层的提取采用了形态学的方法。对分割得到的背景图像采用插值方法对前景区域进行恢复。同时,在分割这一步对票据图像的匹配点进行检测,用于图像的融合恢复。 3.机票图像的分类。为了实现对海量图像的自动化压缩处理,需要确定出每幅图像的种类。虽然真正的票据图像的种类并不多,仅有有限的种类,但实际上通过分类出来的图像类别要多很多。产生非预期图像种类的主要原因有:图像被人为的进行了特殊处理,如贴上标签、盖章等;图像在扫描时发生了褶皱、折叠、翻转、重叠等情况,而且这些情况比较难区分,这是导致产生过多种类的主要原因。太多的图像种类实际上已经违背了本文压缩方案的设计初衷,同时也会使得图像类型确定的时间复杂度呈指数增长。因此本文将图像分为标准类别和非标准类别两大类,然后采用不同的编码方法处理。本文选取机票图像的表格特征、背景特征以及纹理特征作为初始特征向量,运用粗糙集理论实现特征约简及规则提取,提出了一种基于多规则集的综合决策票据图像分类方法。 4.分割后机票图像各个信息层的压缩编码。分割后字符信息层仅包含灰度范围很窄的字符,我们提出了一种基于灰度缩减的图像编码方法。对于类型库中的背景图像采用标准的无损压缩编码方法,而对于不属于类型库的图像则采用MRC的编码方法。由于字符层的分割效果与实际的图像的质量有关,试图寻找完全理想的分割方法是很困难的,因此融合回复后的图像质量很难保证。为了提高图像的解压质量,使用了合成图像与原始图像的差分编码,但是如果采用全图差分编码,则仅差分编码所占的空间便已经很大。这里,我们仅对合成后的图像与原图在字符区域采用差分编码,大大减少了差分编码所占的空间,同时也保证了图像解压时字符层的质量。 通过实验证明,本文介绍的压缩方案对有限种类海量票据图像的压缩存储可行有效。
其他文献
本文在详细考察软件部署过程模型和分析部署过程中不同制品之间的关系后,给出了一个基于软件体系结构的部署过程模型以及部署制品模型,细化了部署过程中的不同活动,充分发挥软件
  服务器监控作为网络管理的一个重要分支,在近年来,日益受到人们的关注,并逐渐发展为独立的研究领域。在服务器监控系统基础上,对服务器各个方面的性能实施综合管理,一直是服务
动态调度系统是流程企业生产线制造执行系统的核心组成部分,直接影响到炼化企业生产的质量和效率。目前国内流程企业的动态调度系统多采用传统的用户界面,界面中大量的惰性信
本文叙述了在高速后台选举系统中,图像定位、校正和识别算法的研究.首先,介绍了论文中涉及的一些相关知识以及系统背景,包括与项目相关的基础理论知识、系统的用户需求分析、
网格是构建在互联网上的一种前沿信息技术。它将地理上分布不同、软硬件异构的各种资源通过高速网络连接成为一个巨大的信息服务平台,实现了广域、动态变化的资源的全面共享
本人根据实际项目的开发需求,通过研究大量文献资料,详细分析并设计了鞍山科技大学办公自动化系统,并运用ASP技术完成了系统的实现.本文首先介绍了基于Web的办公自动化系统的
在计算机智能技术发展逐渐成熟,应用不断深入的背景下,本文对证券智能分析系统进行了探讨和设计。按绪论、系统设计、产生式系统和多层感知器的组织顺序,文章对研究理论和意义、
由于计算机技术的高速发展,符合边疆少数民族语言特色的办公自动化软件的开发就成为了一个亟待解决的问题。因为办公软件开发的复杂性以及自身技术力量不足,因此,在开发中,沿
随着Internet技术的不断发展,特别是企业级平台的广泛应用,提高网络软件的伸缩性(Scalability)与可用性(Availability)正受到越来越多的重视。J2EE集群通过负载平衡与容错两种
  并行计算技术出现三十余年来,在很多方面得到应用,并取得很大成就,不但并行计算技术自身得到很大的发展,其它科学研究领域也因此获益颇大。中国科学院“十五”信息化建设重点