【摘 要】
:
识别数字图像中的文本应用越来越广泛,目前,对图像中文字的识别已经相对成熟,但是对于一些与数学相关包含公式的文档识别仍是一项挑战。公式提取是公式识别的重要步骤,只有准
论文部分内容阅读
识别数字图像中的文本应用越来越广泛,目前,对图像中文字的识别已经相对成熟,但是对于一些与数学相关包含公式的文档识别仍是一项挑战。公式提取是公式识别的重要步骤,只有准确的将被文字包围的公式提取出来,才能对公式进行识别,从而识别整个文档。本文提出一种自动从包含文档的图像中提取公式的方法,公式提取的所有步骤均由计算机完成,无需人工辅助。直接输入原始图像即可提取出其中的公式。首先,对原始图像进行预处理,包括:二值化、图像增强以及图形分割。经过预处理的图像去除了图像中噪声,占用存储空间小,图像中公式特征更加明显,并将图像中的整篇文档分割为独立行的文本行图像。经过这些预处理后,再进行公式提取的准确率与效率将大大提高。其次,针对只包含独立公式行的文本图像,我们提出了基于“黑色连通集邻接图”的公式提取方法,该方法不基于任何识别结果,仅根据“黑色连通集邻接图”的节点和边的特征将纯文字行和独立公式行分类。经实验验证,该方法的分类距离较大,公式提取的准确率较高。针对更普遍的包含嵌入公式的文本图像,在进行基于“黑色连通集邻接图”的一级公式提取的基础上进行二级强化提取公式。首先,在一级公式提取阶段,将纯文字行和包含公式的文本行区分;其次,包含公式的文本行进行二级公式提取强化,使用基于特征的提取以及基于“成词”和特殊符号识别结果的公式提取方法将图像中的所有公式(包括独立公式和嵌入公式)提取出来。再次,利用实验验证该算法进行公式提取的准确性。最后,总结本次毕业论文的成果与不足,并展望未来的研究。
其他文献
随着新课改的不断深入,越来越多的先进教学手段正不断被运用到日常教学中,它们给传统教学注入了新鲜血液,给枯燥的课堂带来了无限活力,尤其是多媒体信息技术使得英语知识既能看得
封装技术的高集成度和小型化要求使用更小、更多的焊接接点,而焊料球与基板界面上形成的金属间化合物(Intermetallic Compound,IMC)会使界面弱化并引起焊点在IMC与焊料的边界上
作为我国主要的畜牧业发展区域,在全区各族干部以及人民群众的努力下,新疆自治区的畜牧业取得了较大的发展.但是,在畜牧业发展中,还存在着或多或少的问题.本文主要围绕这些问
隐身技术在现代电子战中占有十分重要的地位,得到了越来越多的国家的重视和发展。随着外形隐身技术的发展和新型材料的应用,目标自身的雷达散射截面(RCS)已经非常小,因而阵列
时滞减振是一种新兴的减振技术,具有实时调节、减振频带宽、减振效果好、减振器结构简单等优点。由于时滞动力系统相当的复杂,其理论不算成熟,并且多数的研究大多是线性系统,对于非线性系统的时滞减振研究还很少。本文主要研究的是时滞减振技术在非线性振动系统中的应用,着重分析了时滞与反馈增益系数对系统减振的影响。本文首先以一个单自由度振动系统为研究对象,在振动系统上作用简谐外激励,然后利用时滞反馈控制来研究其对
如何提高数控加工中心的加工精度是当前的热点和难点,国内外众多学者围绕提高数控加工中心加工精度这一主题展开了大量的研究工作,本文以艾格马公司生产的Agma-8型数控加工中心
一幅《五度母像》,集中展现了多派唐卡的艺术风格,代表着当代唐卡艺术的最高水平。《五度母像》是西藏多派唐卡创始人年叙·多吉顿珠与西藏噶玛嘎赤唐卡画派第29代传承人、多
“核心素养导向的项目式教学实践”工作坊基于海淀STEM教育协同创新中心航天类STEM课程研发团队的研究成果,结合初中科学类课程标准,让参与者通过交流、观察和设计,体会如何
本文主要从服装品牌的基本知识、平面广告设计中服装品牌传播存在的问题及解决对策这三个方面来详细介绍关于平面广告设计中服装品牌的相关知识,从而提高服装品牌广告对产品