论文部分内容阅读
本文以机票图像为例,提出了一种将图像的背景信息与前景信息分离,对同类图像仅保存一幅背景,再对其分别进行编码的多种类海量机票图像的压缩方法,与对图像直接进行压缩的方法相比,总体压缩比有显著的提高,并且解压图像的视觉质量良好。主要的内容如下:
1.针对海量票据的特点,设计了一种行之有效的压缩存储方案。此方案以如何有效地消除票据图像间的冗余信息为主要目标,同时兼顾考虑压缩方案在实际应用中的可行性,使得方案适合于实际应用中的各种复杂情况。
首先提出了一种基于背景与前景分离的票据图像压缩方案,此方案对同类票据图像仅保存一个副本。然后根据实际中类别过多及字符层无法保证分离的情况,提出了一种改进的方案。改进方案首先确定一个图像类型库,将输入图像分为属于类型库的规范图像类别及不属于图像库两大类,对属于类型库的图像,采用前景背景分离的压缩方法,对不属于的采用直接编码的方法。同时,采用了针对字符区域差分编码方法,保证图像质量的同时也最大限度的缩小存储空间。为了保证能处理少数字符区域都难以检测的情况,将本文的压缩方案与识别部分相结合,利用识别的结果确定编码方法。
2.机票图像的信息分层。将机票图像分割为字符信息层、表格层和背景信息层。由于各层信息之间互相间存在重叠,能否将有用的字符信息有效的提取出来对本文的压缩方案至关重要,同样对于字符的识别,字符的分割也是关键的环节之一。本文首先选用合适的阈值分割方法粗略提取文字信息区域,而后通过去除表格线、噪声及固定打印小字符等一系列步骤,最终将字符层很好的进行了分离;表格线对于票据而言是一个重要的版面特征,表格特征是票据分类的一个重要依据,表格线的提取效果同时也会影响字符层的提取。本文对表格线表格层的提取采用了形态学的方法。对分割得到的背景图像采用插值方法对前景区域进行恢复。同时,在分割这一步对票据图像的匹配点进行检测,用于图像的融合恢复。
3.机票图像的分类。为了实现对海量图像的自动化压缩处理,需要确定出每幅图像的种类。虽然真正的票据图像的种类并不多,仅有有限的种类,但实际上通过分类出来的图像类别要多很多。产生非预期图像种类的主要原因有:图像被人为的进行了特殊处理,如贴上标签、盖章等;图像在扫描时发生了褶皱、折叠、翻转、重叠等情况,而且这些情况比较难区分,这是导致产生过多种类的主要原因。太多的图像种类实际上已经违背了本文压缩方案的设计初衷,同时也会使得图像类型确定的时间复杂度呈指数增长。因此本文将图像分为标准类别和非标准类别两大类,然后采用不同的编码方法处理。本文选取机票图像的表格特征、背景特征以及纹理特征作为初始特征向量,运用粗糙集理论实现特征约简及规则提取,提出了一种基于多规则集的综合决策票据图像分类方法。
4.分割后机票图像各个信息层的压缩编码。分割后字符信息层仅包含灰度范围很窄的字符,我们提出了一种基于灰度缩减的图像编码方法。对于类型库中的背景图像采用标准的无损压缩编码方法,而对于不属于类型库的图像则采用MRC的编码方法。由于字符层的分割效果与实际的图像的质量有关,试图寻找完全理想的分割方法是很困难的,因此融合回复后的图像质量很难保证。为了提高图像的解压质量,使用了合成图像与原始图像的差分编码,但是如果采用全图差分编码,则仅差分编码所占的空间便已经很大。这里,我们仅对合成后的图像与原图在字符区域采用差分编码,大大减少了差分编码所占的空间,同时也保证了图像解压时字符层的质量。
通过实验证明,本文介绍的压缩方案对有限种类海量票据图像的压缩存储可行有效。