印刷体数学公式符号识别方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：kkhaizi

【摘要】

：

本课题研究印刷体数学表达式中符号的识别。近年来，数学公式图像自动识别与理解已成为文档图像处理(DIP)领域的一个热点问题。数学公式图像识别主要包括两大阶段：符号识别

【作者】

：

李丽华

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2006年期

【关键词】

：

数学公式符号识别字体判别最小距离分类器基于ISOETRP 聚类算法树分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本课题研究印刷体数学表达式中符号的识别。近年来，数学公式图像自动识别与理解已成为文档图像处理(DIP)领域的一个热点问题。数学公式图像识别主要包括两大阶段：符号识别与语法分析。多数学者将研究重点放在语法分析阶段，因为很多人误认为传统OCR技术能够较好的识别数学公式符号，但实际应用中却远非如此。数学公式符号是介于普通文字字符与图形符号之间的一种符号，它在排版印刷、符号集方面都与普通文字字符有着很大的区别；而且数学公式符号图像受字体影响较大。因此设计专门的数学公式识别引擎非常必要。本文针对这一问题，提出一个合理的、使用性强的数学公式符号识别模型，根据这一模型，实现通用、快速、精确的印刷体数学公式符号识别引擎。该识别引擎包括预处理、字体识别、符号内容识别、后处理这一完整流程，在符号内容识别阶段，集成结构分析与统计分类的思想，并分别采用最小距离和基于ISOETRP聚类算法的决策树两种方法设计分类器。本课题识别字符集包括普通字体符号330个，LATEX排版数学符号356个，基本囊括所有的数学公式符号；利用该系统对500个公式(约9000个符号)进行测试，识别率达到98％。说明该系统已经脱离实验室阶段，基本可以满足实际需要。

其他文献

抗拷贝攻击和提供合法用户认证的混合水印研究

目前大部分的数字水印应用或者只使用鲁棒水印或者只使用脆弱水印，数字水印的两种最主要的应用版权保护和内容认证就是分别使用鲁棒水印和脆弱水印。本文从结合使用鲁棒水印和

学位

数字水印几何攻击水印协议拷贝攻击

BCI-FES康复训练平台与中风病人运动想象数据分析

中风患者普遍存在一定程度上的运动功能障碍，如何增强其肢体肌肉力量一直是康复训练学科的重要问题。然而，传统的康复训练方法效果极其有限。脑机接口（BCIs）是一种能够连接外部设

学位

脑机接口康复训练中风高斯混合模型弱监督学习

基于多核多线程网络处理器的高性能IPv6路由查找算法研究

Internet骨干链路速度的不断提高，要求Internet核心路由器必须以10Gbps或者更高的速度处理IP最长前缀匹配(LongestPrefixMatch，LPM)，这一问题已成为Internet核心路由器的主要性

学位

网络处理器IPv6路由查找并行编程多线程技术

基于策略的QoS网络管理体系的研究

多媒体业务的不断发展对IP网络的服务质量(QoS)提出了更高的要求，同时网络的不断复杂化、异构化，又极大地增加了提供所需QoS的难度，如何有效地解决这个问题成为当今业界的研究热

学位

服务质量综合服务模型区分服务模型策略网络管理IP网络队列调度

媒体资产管理系统中存储系统的研究与设计

随着广播电视事业几十年的发展，电视台、档案馆等单位积累了大批的视、音频资料。这些珍贵的资料面临着管理的困难、使用的困难，另外传统的节目使用模式也制约着电视台的发展。

学位

媒体资产管理存储管理存储区域网磁带存储存储调度接口层

动态环境下的足球机器人视觉系统

人工智能是计算机科学的一个分支，是研究解释和模拟人类智能、智能行为及其规律的一门学科。自主机器人的研究是目前国际人工智能的重要研究方向之一，而国际机器人足球比赛(Rob

学位

人工智能不可测环境计算机视觉机器学习支持向量机机器人足球机器人视觉

数字化虚拟人体组织连续切片图像的背景移除

数字化虚拟人体,是医学与信息技术、虚拟现实技术相结合的科技性研究课题。通过人体断面连续切片构建出数据集,将医学信息数字化,为医学教育和医学临床的应用提供了理想的工

学位

医学图像图像分割灰度图像彩色图像背景移除颜色信息变换色系标记矩阵S

基于JXTA的无线传感器网络的研究

无线传感器网络是集成了传感器、嵌入式计算、网络和无线通信四大技术形成的一种全新信息获取和处理技术，它是继Ad-hoc网络之后出现的一种新型无基础设施的无线网络，能够实时监

学位

无线传感器网络基于JXTA的无线传感器网络JXTA仿真工具SENSE

数据中心网络负载均衡中的带宽碎片问题研究

现有的基于流的数据中心网络负载均衡方法主要以满足流的带宽需求为目的，缺乏对流的带宽需求和链路容量之间的差值的考虑，可能导致多条链路上存在大量可用的带宽容量，但无法将它

学位

数据中心网络负载均衡带宽碎片OpenFlow

面向方面的网格服务开发

网格是近年来兴起的一个研究热点，被称为是下一代的互联网。网格计算是基于网格的问题求解，当前的研究内容主要集中在底层支撑软件以及大规模的科学应用，出现了一些重要的研究成

学位

开放式网格服务基础设施Web服务资源框架模型驱动架构面向方面编程

印刷体数学公式符号识别方法研究

与本文相关的学术论文