图文混编图像的版面分析及识别研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:nallysun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,越来越多的用户通过社交软件向好友分享存在图文混编版面的图像(下文简称“图文混编图像”),而图文混编图像存在庞杂的信息使得用户无法在短时间内获取重要信息。为了快速地帮助用户从图文混编图像中获取尽可能多的有效信息,本文提出了基于图文混编的版面分析算法。该算法不仅能够快速区分图文混编图像的文本标题区、文本正文区以及图像区。而且能够高效地识别文本标题区和图像区的内容,以较低的算法复杂度获取图文混编图像中重要信息。本文主要研究内容如下。(1)提出了融合轮廓投影的连通域版面分割算法。该算法在对图文混编图像进行图像预处理的基础上,首先基于八连通将整个图文混编图像进行单字区域扩充。然后根据轮廓投影后的灰度直方图中波形的规律性和周期性对不同区域进行大致划分。最后通过引入文本行(列)间隔阈值以及图文间隔阈值对各个连通区域进行合并,更加有效地区分文本标题区、文本正文区以及图像区。(2)提出了基于多级划分的单字识别算法。该算法对标题汉字采用36×36点阵归一化处理,首先对标题汉字进行粗划分,根据绝对值距离,从字典库7000个汉字中选出与标题汉字匹配的前m个汉字。然后对标题汉字进行细划分,根据欧氏距离,从m个汉字中选出匹配的前n(n<<m)个汉字。最后根据匹配度计算,完成最终匹配。通过对标题汉字进行粗划分和细划分降低了计算量,同时提高了算法的识别效率。(3)研究了基于局部特征的SIFT算法的图像匹配技术。首先构建图像尺度空间金字塔找出其极值点;然后对于找到的极值点进行筛选确定稳定的特征点;最后根据由特征点所表示的局部描述子对图像进行匹配和识别。本文将基于图文混编的版面分析算法移植到移动端,从而设计了移动端版面分析系统。该系统能够对图文混编图像版面进行分割,准确识别出标题区域和图像区域,并将识别结果通过手机移动端推送给用户。通过对算法实验和系统测试的分析,证明了算法的有效性和系统的实用性。图[22]表[8]参[63]。
其他文献
<正>一、引言并购是企业做大做强快速成长的利器,是上市公司做大市值的常见手段。2013年以来我国证券市场并购交易急剧增长,据普华永道报告统计,2016年中国并购市场交易总额7
团花作为中国传统纹样之中一类典型的装饰纹样,与其他样式的图案一样,都具有明显的民族风格以及传统特色。其自身的艺术装饰形式所表现的中国吉祥观念十分突出。团花纹样从其
货币政策对我国的宏观经济运行起到了非常重要的作用。本文以2000—2012年间我国基准利率的频繁变动为切入点,通过使用ADF检验、HP滤波及回归拟合等方法,从实证分析的角度对
采用液体振荡培养法,以菌丝生物量为指标,通过单因素试验和正交试验,对蛹虫草液体菌种培养基进行了优化。结果表明:最适碳源为蔗糖,最适氮源为酵母粉,最适培养基配方为蔗糖3%、酵母
植物体内小分子物质的存在形式多种多样,其中较普遍且重要的一种形式就是糖基化。而β-葡萄糖苷酶能够催化水解这一类糖基化物质,它在植物中广泛存在,且功能多样。目前已有关
在东北老工业基地振兴过程中,民营企业扮演着重要角色。经过对辽沈地区9家企业的实地调研,本文从人才、创新动力、政策机制三个层面对目前民营企业面临的棘手问题进行了梳理
针对军用飞机飞行小时数较低、飞机寿命主要由日历寿命确定的状况,提出了一种基于年飞行强度的日历寿命方法。该方法以一般环境下的疲劳定寿结论为前提,通过地面停放腐蚀影响
随着我国市场经济的发展,社会各界人士对商标权保护的呼声愈来愈高。商标法作为调整市场经济关系的法律之一,也逐步得到了发展完善。但是法律总是具有滞后性的固有缺陷,逐渐
古陶文是指古代陶器上的文字。与甲骨文、金文相比,陶文尚未引起学术界的广泛重视。最早著录陶文者,为清代著名金石学家陈介祺,他于1872年开始访获陶文,先后收集陶文拓片404
西方艺术史中的描述与阐释传统由来已久,早在古典时期便有艺格敷词描述和阐释艺术作品,到了中世界人们更乐于去描述与阐释世界,由此产生的象征方法也影响了之后文艺复兴时期