一种用于文档图像的高质量向量化方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:s307403419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档图像主要由文字辅以图案、符号构成,它一般由传统纸质文档经过扫描得到,在文档数字化存储、数字图书馆建设等方面应用广泛。另一方面,数字化的文档极可能在诸如手机、高清电视、电脑等各种不同分辨率的显示终端呈现。人们既希望高质量地保存图像又期望获得高压缩率以节省存储空间、减少对传输带宽的需求。因此,必须解决数据的存储、传输和显示问题。设计一种可缩放的,精简的文档图像存储格式具有重要意义。   向量图是以数学曲线形式存储的,在数据量上大为减少,同时在缩放时不会因为插值导致图像质量降低。从扫描仪直接获取的文档图像是以位图形式存在的,因此需要一种文档图像向量化方法来将位图图像转换为向量图格式。二值图像向量化在过去已经得到广泛的研究和应用,最近,彩色图像向量化也得到越来越多研究者的关注。本文对图像向量化方法进行综合回顾,提出可以按照向量化处理对象的不同将现有图像向量化方法分为一维信号向量化和二维信号向量化。即,分为仅仅关注图像中对象的轮廓形状等一维信号的向量化方法和既关注轮廓形状特征又考虑内部颜色、纹理特征等二维信号的向量化方法。本文考查的文档图像向量化属于一维信号向量化,其典型处理步骤包括图像预处理、轮廓提取、尖点检测和轮廓拟合。   现有一维信号向量化方法在轮廓提取上多采用基于像素的方法,这种方法难以准确表示单像素轮廓和自相交轮廓,而这些又是文档图像中经常出现的情形。本文在考查了基于Freeman链码的轮廓提取之后,提出一种精确轮廓提取算法,可以准确表示单像素轮廓和自相交轮廓。   尖点检测是图像处理、计算机视觉等领域广泛研究的课题,在图像向量化中有重要作用。基于轮廓的尖点检测算法大多通过计算轮廓曲线上各点的曲率或者其它度量方式来获得尖点,但都难以保证尖点的准确性。对于文档图像这种同一页面可能存在多种字符尺寸的情形,这些方法检测字符尖点通常存在漏检和误检问题,最终导致低质量的曲线拟合结果。本文充分利用英文字符的先验信息,提出一种基于规则的尖点检测和曲线拟合方法,对字符的尖点进行准确检测,进而获得高质量的拟合结果。   本文的主要贡献在于:提出一种轮廓的精确提取和表示方法,解决了单像素和自相交的字符轮廓给曲线拟合带来的困扰;提出一种基于规则的尖点检测和曲线拟合方法,利用英文字符的先验信息,提高了最终拟合结果的质量;提出一种文档图像向量化的实现框架,充分考虑文档图像的特点,结合基于规则的尖点检测和曲线拟合以及默认的尖点检测与曲线拟合来完成文档图像向量化,获得高质量向量化结果。
其他文献
概念是知识表示的核心要素。因此,概念的提取是知识提取中最核心的任务。如何有效地从各类资源中挖掘概念实例是知识提取研究中的一个关键问题。本文分别针对特定领域文本的概
随着信息通讯技术和互联网的发展,互联网金融信息对金融市场的影响已经越来越不容忽视。某一个新事件的发生或者是网络上对某支股票的热议都在很大程度上左右着金融实践者们
随着工业机器人应用范围越来越广,人们对机器人的运动精度也提出更高的要求。由于各种误差因素的影响,机器人理论位姿和实际位姿总是存在着一定的误差,这个误差严重影响着机
随着时代的不断进步,计算机与网络的性能取得了飞速的提高;与此同时,科学研究领域以及工程领域对于计算能力的要求也在与日俱增。在这样的背景下,网格计算技术应运而生。网格
随着高精度质谱技术的飞速发展,基于生物质谱分析的蛋白质、肽段鉴定已经成为蛋白质组学的核心技术。蛋白质、肽段鉴定方法主要分为两大类:数据库搜索和肽段从头测序。数据库
自从Adleman首次利用DNA分子及生化反应求解困难的计算问题以来,不少研究人员希望借助DNA分子海量并行的计算能力、高密集的存储能力及其特定的生物活性来设计一种新型的DNA
计算流体力学(Computational Fluid Dynamics)和有限差分方法(FiniteDifference Method)是科学计算中最为常用的计算方法,其单指令多数据流(SIMD)的计算特点为GPU加速提供了可
随着互联网技术的普及和发展,人们的工作与生活越来越依靠从网络上获取有用的信息。现代的科研工作者为了更好地进行科研工作,往往也从网络上搜集一些重要的科研文献资料。因
三维热传导方程是一类重要的偏微分方程,其广泛应用在求解依赖时间变化的各种工程领域中,如地下水流动模拟与油藏数值模拟等。该方程已被用来解决复杂性高、规模大且计算量大
学位
随着集成电路功耗密度与总功耗的增长,芯片温度呈上升趋势。高温度不仅影响性能,还影响集成电路的功耗与可靠性。温度已经成为集成电路设计中的重要考虑因素。研究者积极寻求电
学位