网页图像中字符分割技术的研究

被引量 : 0次 | 上传用户:zhangwang198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet上,纯文本页面被加入了越来越多的图片,这些图片中含有大量的字符信息,这些信息不仅可以被传统的文本搜索引擎用来索引和检索页面,而且可以帮助多媒体搜索引擎对图片进行检索。为了增强表现效果,网页图片中的字符常常具有非常丰富的颜色、语言种类、字体以及变化多样的排列方式,且字符尺寸较小。需要在现有的图像字符分割技术的基础上,针对以上特征研究适合网页图像的字符分割技术。字符分割通常分为字符区域检测和字符成分提取两个步骤。字符区域检测算法用于定位图像中的字符区域。针对该问题,设计并实现了一种基于边缘特征的检测算法,这类算法不仅对字符的尺寸,颜色,语言种类的变化有较好的鲁棒性,而且运算速度较快。现有的字符提取算法一般采用二值化技术,当字符区域内有多种颜色(灰度)的成分时,更合理的方法是将字符区域按颜色(灰度)特征分为多个成分。直方图分割可以用来划分图像灰度空间,因此给出了基于直方图分割的字符提取算法,该算法利用差分直方图所体现的分布变化,准确检测出分割点,结合一些先验知识可以有效地分离出图像中的字符成分。当检测到的字符区域含有与字符颜色(灰度)特征相似的非字符成分时,基于直方图分割的字符提取算法获得的结果质量不高,但如果将该方法结合空间位置信息,就可以有效的解决这个问题。因此给出一种基于聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的字符提取算法,该算法将图像中字符的提取过程看作是对颜色(灰度)相似且分布密集的像素聚类,在一个类中的像素即构成图像中的一个成分,再通过判定规则确定字符成分,达到字符提取目的。相对基于DBSCAN的字符提取算法而言,基于直方图分割的字符提取算法具有时间复杂度低的优势。为了从整体上提高字符分割的效率,需要采用简单规则对字符检测结果进行判断,对于较大的图像区域,可能含有与字符颜色相似的非字符成分,使用基于DBSCAN的提取算法,否则,使用基于直方图分割的提取算法。实验分别对字符检测算法、基于直方图分割的字符提取算法、基于DBSCAN的提取算法以及混合提取算法进行了分析。
其他文献
近年来,现代化电子技术高速发展,计算机通信技术也不断进步,两者的结合进一步演化出许多新的通信系统,为集中器的实现提供了前提。在实际应用中,集中器的结构十分复杂,单独依
目的:探讨金因肽表皮生长因子溶液在压疮治疗中的效果。方法:选择2009年1月~2012年2月在本院住院的85例Ⅱ、Ⅲ期压疮患者根据住院时间分为观察组42例(51处),采用常规治疗加用
中国股市在过去一年多大幅下跌,部分具备核心竞争能力、能够长期稳定增长的优秀上市公司已经凸现投资价值。本文旨在使用基本面研究方法,通过绝对估值分析和相对估值比较,为
我国工农业关系处于实施大规模"以工哺农"的时期,学界从多个角度围绕"以工哺农"展开讨论:以工哺农的理论有经济控制论、体制改革论、产业互动论和和谐发展论;"以工哺农"的方
<正> 在社会心理学谈到人际交往时,常常提到“第一印象”。什么是第一印象呢?简单地说:在社会知觉中,两个素不相识的人第一次见面时所形成的印象即称为“第一印象”,它主要是
我国小麦产量和小麦粉的年产量均居世界第一,我国制粉工业已成为我国快速发展的食品工业的重要基础产业。但我国小麦粉加工业与发达国家相比,在规模化生产和集约化经营;不断
通过测定总抗氧化能力、清除DPPH自由基能力、清除羟自由基(.OH)能力及清除超氧阴离子自由基(O2-.)的能力,评价4种葡萄3种提取物的体外抗氧化能力。通过动物实验评价玫瑰香葡
目的:探讨风险管理在医院门诊护理中的应用效果。方法:选取我院2012年1~12月门诊部收治的500例患者为研究对象,对其实施风险管理护理措施,具体实施方式为:总结医院门诊工作中
<正> 猛禽通常是指隼形目(FALCONIFORMES)和鸮形目(STRIGIFORMES)的鸟类而言。对猛禽资源的调查研究,目的在于为本省的鸟类资源合理规划、利用和保护工作提供科学依据。过去
在新一轮的语文课程改革中,客观认识传统语文教育,再度成为语文教育研究的热点问题。传统语文教育为当下的语文课程改革积累了许多宝贵的经验,其注意运用汉语汉文的特点组织