【摘 要】
:
科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切需要。目前广泛应用的OCR (Optical character recognition,光学字符识别)技术可以将印刷体文献
论文部分内容阅读
科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切需要。目前广泛应用的OCR (Optical character recognition,光学字符识别)技术可以将印刷体文献中的文字高速、自动地输入计算机,且取得很高的识别率。但是科技文献中包含大量的数学公式,OCR还不能对其进行正确识别,只能将其存储为图片格式,不仅占用大量空间,而且不能对其进行再编辑。因此,数学公式自动识别在将科技文献转化为电子文档的过程中具有重要的意义。印刷体数学公式识别系统包括公式抽取、公式符号识别、公式结构分析和公式重构四个组成部分。其中,公式符号识别模块是系统的核心部分,其功能是将公式中的符号图像转换成相应的代码,分为符号切分和符号识别两个阶段。针对传统的文字识别器在识别公式符号中存在的问题,本文对印刷体数学公式符号切分和识别展开研究,设计了能够适应公式符号二维分布、大小不一、多交叠、多字体等特点的切分和识别算法。首先采用迭代自组织的符号切分方法对公式符号进行切分,为符号识别提供正确的符号位置信息;然后对符号进行预处理,并采用基于游程特征的符号识别方法对公式符号进行识别。通过对不同印刷质量文档的实验表明,本文设计的符号切分和识别方法能够取得较高的识别率和令人满意的处理速度。
其他文献
基于IEEE 802.11标准的无线局域网接入技术已经成为市场和应用的热点。但无线局域网在带来方便的同时,也带来了很多新的安全隐患。为此,业界提出了一些安全增强机制,包括:802.1x
随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通讯方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量
医学图像存档与传输系统PACS(Picture Archiving and Communication System)将计算机和通信技术相结合应用于医学领域,以“电子化”的方式在通信网络中传输、归档和显示各类医学
因特网的普及为社会带来了巨大的经济效益。然而,网络的安全问题也日益突出,已经成为人们关注的核心问题。各种安全防范技术应运而生,其中防火墙技术以其实用性、安全性获得了广
智能交通是计算机视觉、机器学习、交通运输领域的热门课题,它涉及到多个学科的交叉,具有重要的学术研究价值和极强的实用背景。本论文的研究背景是“混合交通下行人安全状态
由于网络技术和多媒体技术的发展,人们希望手机能够接入互联网,传播人们喜闻乐见的多媒体信息,多媒体短信息(MMS: Multimedia Messaging Service)应运而生。目前,MMS业务发展
以人为本的社会需要以人为本的计算,应运而生的普适计算必将极大的丰富和便利人类的生活。普适计算通过将普适计算设备嵌入到人们的日常生活环境中,使人们每时每刻都能享受到计
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。目前,基于接收端的过滤技术被广泛应用。但是在接收端处理垃圾邮件无法避免垃圾邮件对
数据库管理系统(DBMS)软件是信息系统的核心,是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS,提高我国企业创新能力和市场竞争力需要自主产权DBMS,国家信息安
作战指挥是一个复杂的系统工程,在作战指挥过程中,指挥员必须根据敌我双方的态势,快速、准确地作出决策,以取得战争的主动权。然而,现代战争是立体战争,战争的突发性增加,破坏力增大