文本/图形检测在专利全文图片中的应用

来源 :科学与财富 | 被引量 : 0次 | 上传用户:a372092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:专利全文是专利数据中最重要的内容之一,全文中的示意图、化学式等图形对于专利用户快速了解专利内容具有重要意义,也是实现图形检索的基础。本文给出了一种应用RLSA(Run Length Smoothing Algorithm),Connected Component Labeling等算法检测专利全文中图形的方案。
  关键词:图形检测,专利全文,RLSA,连通域分析,Connected Component
  检测方法
  算法流程如图1所示。主要思路文本字符经RLSA平滑处理后相互连接形成文本行。文本行相对于单个文本字符特征更明显,因此也更易检测。同时在试验中,我们发现RLSA的处理结果可能因专利全文图片中含有表格、分隔线等等直线干扰,因此在RLSA的基础上引入了直线检测和过滤步骤,以改善检测效果。
  图1算法流程
  * 预处理
  一些较早的专利图片存在一定角度的倾斜,需在RLSA处理前进行倾斜检测和纠偏。霍夫变换(Hough Transform)是计算偏斜角度的常见方案,但其计算成本较高。W. Postl (1988)发现了一种速度很快且保持良好纠偏效果的算法,leptonica1提供该基于算法的一种实现。
  另外,实验还发现专利全文图片页边的条码等内容,对文本/图片分类也会产生干扰,需提前移除。可分析专利图片在X轴(Y轴)投影直方图(Projection Profile Histogram),检测间断,进而完成页边内容的移除。
  * 直线检测及RLSA
  二值图像中,常用0,1代表白色和黑色像素,相邻的0(或1)称为一个游程(Run),0(或1)重复的次数称为游长(Run Length)。RLSA的转换规则是若中0的游长不大于给定阈值c,则将游程中的0转换成1。例,若c=5,则f:00110000001001110001100000100
  被RLSA转换为g:11110000001111111111100000111
  即RLSA的作用就是将两个间距不超过c的游程合并成一个连续的游程。
  由于文档中的文本等元素在水平和垂直方向的间距不同,应为水平和垂直方向选择不同的参数c。由于参数选择的不同,有时RLSA将表格或其他相互连接的水平/垂直的直线也识别成图形,这并不是我们期望的结果,因此我们在RLSA步骤中增加直线检测以移除较长的直线,此外我们还加入了噪音过滤。改进后的步骤如下,
  1.对原始图片P中的白色像素应用水平方向的RLSA,参数为CI1,得到的图片记为Pt1;
  2.记P中垂直方向黑色像素的游长为RL1,若RL1>Cv1,则将Pt1中对应像素改为黑色;
  3.从P中移除Pt1中的黑色像素;
  4.对原始图片P中的黑色像素应用垂直方向的RLSA,参数为Cv,得到图片记为Pt2;
  5.记P中水平方向白色像素的游长为RL,Pt2中水平方向白色像素的游长为RLt2:
  若RL>C1,则将Pt中对应像素改为白色;
  若RL│Ca,则将Pt中对应像素改为黑色;
  若Ca  步骤2、3、4在实现时可以合并处理。若步骤4和步骤2得到的游程为
  f=001110001
  ft1=00011000
  那么步骤3产生了新的游程
  f│ft1=001000000
  * 图片分段
  图片分段(Segmentation)即把图片分成若干区域,把相近的像素放在同一个区域,产生的子区域也被称为块(Block)。在分段后即可根据每个区域的特征创建描述符。这些描述符帮助我们标记对应区域是属于文本、图形或是其他区域。本文应用分量分析(Connected Component Labeling)算法。连通区域分析是图像处理、模式识别中的常用基本方法,它将图像中具有相同像素值且位置相邻的前景像素点组成连通区域。根据相邻的定义,根据像素的相邻关系,又分为4连通区域分析和8连通区域分析;算法的实现根据需要扫描遍历像素的次数,又分为两边扫描(Two-Pass Scan)和单遍扫描(Single-Pass Scan)。
  * 指标计算和区域分类
  对于任意区域,定义以下参数,
  >X-轴、Y-轴、宽度、高度,记为(xmin,ymin,│x,│y)。
  >原图对应区域中的黑色像素数(N)。
  >原图对应区域中水平方向白色│黑色像素切换的次数(TH)。
  >原图对应区域中垂直方向白色│黑色像素切换的次数(TV)。
  >原图中包含至少一个黑色像素的列的数量(δχ)。
  计算指标如下,
  >区域高度,H=│y
  >宽高比,R=│x-│y
  >面积,S=│x│y
  >像素密度,
  >单位宽度RLSA│转换次数,
  >单位宽度RLSAv转换次数,
  >单位高度RLSA│转换次数,
  * 后处理
  经过文本/图形检测分类之后的区域仍然需要进一步加工。主要目的是:
  1. 通过区域大小、区域处在专利中的位置,从检测结果中排除Logo,条码等非目标图形。
  2. 依据是区域间的距离将临近的图形区域合并。
  本阶段的处理往往需要参考特定国家/专利局专利全文图片自身布局的特点,本文不做详细展开。
  结束语
  本文从专利检索的现实需求出发,构建了一种基于RLSA从专利全文中检测图形的方法。该算法容易理解,已使用Java实现。实验证明,本文算法计算快速,对多国专利图片都具有良好的适应性。
  参考文献
  [1]Frank Y. Shih, Image Processing and Pattern Recognition: Fundamentals and Technique
  [2]Jaekyu Ha等, Recursive X-Y cut using bounding boxes of connected components
  [3]http://www.leptonica.com/local-sources.html
其他文献
摘要:遥感信息技术和地理信息系统是我国对土地动态监测的重要技术方法,也是目前全世界各国都在不断开发研究的课题。遥感信息技术具有其他检测技术无法比拟的先天优势,它的功能更为强大,科技含量更高,检测覆盖面积更广,并且可以很大程度上降低成本,同时提高对土地动态监测的效率,提供最快、最准确、最高效的土地实时动态。遥感信息技术提供的科学准确数据,极大地辅助了土地动态监测。希望通过本文的分析能够帮助相关土地动
期刊
摘要:近年来,有土地资源所引起的社会矛盾越来越多,适当的土地资源管理方式能有效的改善这些问题。本文主要概述了3S技术的含义,分析了3S技术在土地管理中的应用,包括其在土地资源调查中的应用、土地资源动态监测中的应用和土地资源规划中的应用,并根据这些应用分析了3S技术在土地管理中的未来发展趋势。  关键词:3S技术;土地管理;应用分析  前言:  我国社会经济不断发展,对土地资源的利用也不断增高,这就
期刊
摘要:O2O即Online To Offline(在线离线/线上线下),是指将线下的商务机会与互联网结合,让互联网成为线下交易的前台,这个概念最早来源于美国。O2O的概念非常广泛,既可涉及到线上,又可涉及到线下,可以统称为O2O。现如今,整车流通领域的O2O主要有5种类型:积累了十余年行业经验的汽车垂直网站、大型汽车经销商集团自建平台、跨界合作平台,这5种类型的汽车O2O运营各有千秋。  关键词:
期刊
摘要:随着全国收费公路的建设与发展驶入了快车道,收费公路的路网规模和复杂程度日益扩大,随之而来的便是收费公路机电系统设备管理与高效运营管理之间矛盾的产生和加剧。目前公路机电系统设备种类繁多、设备数量成百上千,大致可分为收费系统、监控系统、通信系统、供电系统、防雷系统、对讲系统、计算机网络系统等。收费公路机电系统是收费公路系统的重要组成部分,它既是保障收费公路实现收费、安全、舒适功能的必要组成部分,
期刊
摘要:新媒体的普及让消费者的生活发生巨大的变化,本文试图对杜蕾斯整体微信营销策略进行梳理,以发现其营销策略的可借鉴之处,以便企业制定营销策略时,进行借鉴或指导。  关键词:微信杜蕾斯营销策划  一、引言  微信作为网络营销的重要平台之一,其订阅功能和朋友圈分享能力,外加海量用户触达能力,微信公众平台生来就是自然的营销平台。但是微信营销并非适合所有行业,也并非投入即取得立竿见影的成效,大多数企业仍处
期刊
摘要:近年来,乳化炸药生产工艺及其安全管理问题得到了业内的广泛关注,研究其相关课题有着重要意义。本文首先对相关内容做了概述,分析了乳化炸药的生产工艺及特点。在探讨乳化炸药生产工艺过程中危险因素的同时,结合相关实践经验,从设置硝酸钠溶解罐,降低杂质诱发的爆炸等多个角度,提出了乳化炸药安全生产的管理与控制措施。  关键词:乳化炸药;生产工艺;安全管理  1 前言  作为乳化炸药生产过程中的重要方面,其
期刊
摘要:通过引入泥岩百分比,并结合软、硬岩的破坏变形特征将覆岩分为三种类型,分析出三类覆岩的裂隙发育特征,通过理论研究结合屯留矿实例分析得出:覆岩岩性特征与关键层位置共同控制着采空区裂隙带发育高度,当关键层高度大于一定临界高度,临界高度按(7~10)煤层采厚来估算,砂岩为主型覆岩的裂隙较发育可越过关键层,裂隙带高度D为:关键层高度≤D<顶部基岩高度;当关键层高度小于一定临界高度,泥岩为主型覆岩且含有
期刊
摘要:随着社会快速生产和发展,现在我国的综合实力明显提高,作为我国国民经济支撑的重要力量,热电厂也在随着时间的推移而不断发展着。笔者结合自身的工作经验,就我国热电厂的自动化改造现状进行了有效分析,同时提出了相关的建议,促进热电厂自动化改造的优化性。  关键词:自动化; 改造;热电厂;  随着科学技术的不断进步,现在我国的自动化技术越来越高,各行各业的发展都离不开电能,因此热电厂一定要对计算机等自动
期刊
摘要:中国要走宪政之路,必须要限制国家权力,保障人民的权利。在中国宪政体制视野下,找出行政诉讼法的困境与思考行政诉讼法的未来,是我国的现实需要。而行政诉讼法正是朝着限制国家权力,保障公民权利的方向不断发展。为了更好的使行政诉讼法在中国完政体制下发挥应有的作用,应构思行政诉讼法的未来,推进我国的法治进程。  关键词:宪政 行政诉讼法 困境 未来  一、宪政与行政诉讼法的关系  1 价值取向一致  我
期刊
摘要:随着我国工业化城市化进程的不断深入,我国公路建设数量日益增加。为保证公路的正常运行,确保人们的出行安全,近年来我国公路机电监控系统不断完善发展,有利于保证我国交通运输行业的可持续发展。本文主要是对监控系统在公路收费中的作用、监控系统的设置要求、在收费公路中的应用及其未来的发展趋势进行分析论述,希望能够帮助相关单位部门更好地了解机电监控系统,从而实现其作用的充分发挥。  关键词:机电监控系统;
期刊