基于复杂度的自适应中文版面分析方法研究

被引量 : 0次 | 上传用户:xin24
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、电子技术和人工智能等技术的飞速发展,OCR技术的发展成熟,越来越多的国内外专家学者关注着文档图像的自动处理。文档图像的自动处理主要包括文档图像的版面分析与版面理解(Document Layout Understanding)和OCR识别。版面分析与版面理解主要完成对文档图像的分割,分类等处理,以便将文字区作为OCR系统的有效输入。本文以文本版面分析为课题,主要研究对象为一种复杂的文档版面。本文研究的目的是,通过版面分析,能够将文档版面根据其复杂度进行分割,将版面划分出嵌入的图表或图像以及主体版面的各个段落、标题;在进行版面分析之前,先对输入的文档进行去噪处理和倾斜校正。在版面分析方面,本文采用复杂度分析的算法思想,对连通域进行搜索,结合版面先验知识,分析并提取异常于文字部分的连通域的,并对此部分进行投影分析,根据该部分的投影特征及连通域的形状,分析出该部分是图形、表格还是文本,对于剩余的文档部分,采用投影算法,设定自适应的阈值,划分版面的各个段落及标题;此法运算量较小,算法效率较高。
其他文献
起爆系统的安全性与可靠性设计在武器系统研制中扮演着极其重要的角色。激光驱动飞片点火方式由于其点火能量形式的独特性,被认为是未来安全起爆的重要方式之一。本文针对激
目前,随着城市住房问题的日益严峻,城市商品房价格的不断飙升,使得大量城镇人口把目光转向农村房屋。农村房屋买卖合同不断订立,各种各样的纠纷层出不穷,法院在审判有关案件
成语是一种语言的重要组成部分。中英两种语言都包含了大量的成语。它们各具特点,有共性也有不同之处。如何正确的翻译它们就成为了一个很有研究价值的课题。在成语翻译方面,
创造性人格(creative personality)是一个综合结构,是智力因素和非智力因素的统一。近几十年来,创造性人格的研究迅速兴起并引起了国内外学者广泛关注。儿童早期创造性人格的
金融是现代经济的核心,银行等金融机构的风险控制、稳健运行事关国家宏观经济的健康发展和社会的稳定。随着银行业务的不断发展和市场竞争的加剧,银行风险也呈现出复杂多变的
在高速发展的城市化进程和现代化新型社区建设的推动下,作为城市细胞的社区,其功能和作用不断凸显。而社区文化建设作为社区建设的灵魂,在社区建设中具有举足轻重的作用。本
商标是产品质量的象征和形象的代表,体现着浓厚的民族色彩和鲜明的文化个性,具有丰富的文化内涵。商标翻译过程中语言的选择和使用是以实现商标终极功能为目标的动态顺应的过
报表登记、表样设计、定义取数公式、表页管理、生成利润表是主流财务软件编制利润表的基本程序。本文介绍并比较了使用金蝶、用友、速达软件编制利润表的技巧,并对用友软件的
以多层配筋砌块砌体结构教学楼为例,分析其土建工程费用,并与多层砖混、框架、框剪结构教学楼进行人工、材料、施工机具使用费、净使用面积等比较。结果表明,配筋砌块砌体结
美国发达的思想库在国际舆论传播领域日益突出的影响力,已成为一项非常值得研究的课题。特别是对思想库在涉华舆论传播的平台上扮演了何种角色以及发挥了何种效应,至今仍是一