印刷体数学公式识别中公式提取和符号定位

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ytvct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题对当前国际上典型的数学公式识别系统作了一些研究和比较,对其在中文文档识别中暴露出来的问题作了比较细致的讨论。参考了原有系统的一些特点,专门针对中文数学公式文档提出了一个新的数学公式识别系统。由于新的系统充分利用了中国汉字自身所特有的一些特征,所以同原有的系统相比,新的系统在结构上大大简化了,在效率上也有所提高。新系统另外一大优势在于,它可以在不用识别数学字符的情况下,对数学公式进行提取,这样对提高系统的效率有着积极的意义。新系统结构非常简单,主要分三大步:第一步是图像预处理,着一步的主要目的是把彩色图转换成灰色图,去除图像噪声,增强图像清晰度。第二步是数学公式提取,这一步的主要任务是将数学公式同普通文本分割开来,它又分为独立公式行的提取和内嵌公式提取。第三步是公式字符定位,这一步的任务是在已知的公式范围内对公式字符定位,最终取得每个字符的位置和大小。 这个系统的主要目的是对数学公式中的字符进行定位,为数学公式识别的后继的结构分析、字符识别等步骤作必要的准备工作,它是整个数学公式识别过程中的一个难点。本系统对独立公式行提取的准确性达到98%以上,在内嵌公式提取方面还有待加强,在公式已提取的情况下能够准确地提取出每个连通体。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)技术始于20世纪50年代初,作为一种主动式遥感方式,相比于光学传感器,它能够全于时、全于候获取高分辨率遥感雷达图像.通过对同一
电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别技术(LVCSR)在最近十几年取得
开关磁阻起动/发电机系统是一种新型机电能量转换装置,具有结构简单坚固、成本低、高容错运行能力、低速高转矩能力、高能量密度和高温运行能力等突出优点。开关磁阻起动/发电机
随着试验机技术的进步,近年来国内外电子液压万能试验机发展了三种不同控制方式:电液伺服阀控制、采用具有速度控制器的压力阀控制和宽流量范围的比例阀控制。电液伺服控制技术
近年来随着多媒体技术和互联网技术的发展,图像的资源不断扩大,如何更有效地存储和检索这些图像资源给当前广大信息领域的科学研究工作者提出了新的要求.基于内容的图像检索(
本文以“某型牵引高炮武器系统”的研制开发为工程背景,为提高其中目标坐标测定仪的实时性能,研究并探讨了目标坐标测定仪的软硬件改良设计。通过基于嵌入式实时操作系统(RTOS)
我国是世界上少数几个以煤炭为主要能源结构的国家之一,利用燃煤发电是煤炭能转化利用的最有效方法。随着我国国民经济的飞速发展,人民生活水平逐步提高,我国电能在终端能源中的
骨发育成熟度(骨龄)自动评判技术的出现得益于现代图像处理技术和模式识别技术的发展.骨龄指标在预防医学、临床医学和体育科学等领域得到广泛的应用,并且日益受到关注.由于
该文通过考察医院信息系统的现状,提出了医院信息系统的设计方案.该文的主要内容如下:首先探讨了分布式系统的相关技术和理论,介绍了C/S、B/S模式的工作方式及特点,比较了两
文本分类问题作为机器学习的一个重要问题,其研究一直受到关注.然而,作为一类特殊的文本,科技文本的分类问题却没有得到足够的关注;与此同时,科技文本分类问题的需求却与日俱