印刷体数学表达式识别系统的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:tosying11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技高速发展的现代,许多科技文献中包含大量的数学表达式,而当前的OCR系统还不能正确识别这些数学公式,当人们对科技文献进行数字化时,其中的公式只能按照图像格式进行保存,而不能加以识别分析,这样就不能依据公式对文章进行检索,而有的文章其核心内容就是这些公式。另外,公式是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体,其输入要比普通文本的输入困难的多。为此,我们提出了一种新的关于表达式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编辑的电子格式(如LATEX,Word公式编辑器)。数学表达式的识别包括符号识别和结构分析两个阶段:粘连字符的分割。粘连字符为字符识别带来了困难。本文提出用自组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字符。特征提取与选择。从一个字符图像提取抗旋转、缩放、平移的几何不变性特征。文中介绍三种常用的矩方法:规则矩、Zernike矩和样条小波矩。文中还介绍了基于神经网络的主分量分析方法,在38维矩特征中选取18维的主特征,保留信息量的同时,大大降低了特征矢量的维数,消除了样本间的相关性,突出了差异性。字符识别。分类器是整个识别系统的核心。文中用自组织特征映射做字符的粗分类,将特征相近的字符分在一组。然后BP神经网络对各组字符做细分类,识别出同一组的不同字符,有效地提高了分类精度。文中还介绍了字符识别的置信度分析以及它的主要两个应用:估计识别率和拒识区域的选择,通过适当地选择拒识区域使得识别正确率和拒识率之间达到最优折衷。公式重构。为了系统描述的完整性,这部分被安排在附录C中。本论文部分工作是与侯利昌师兄共同研究的结果,并且反映在我们共同撰写的论文“A Segmentation Method for Merged Characters Using Self-Organizing Map NeuralNetworks”中。
其他文献
视频不仅包含静止图像所包含的内容,还包含场景中目标运动的信息和客观世界随时间变化的信息,它作为多媒体技术的基本组成部分完善了信息资源的表达手段,在这些海量的信息库
学位
本文就两个方面介绍了我们的研究成果: 1.圆弧曲线的有理五次Bézier表示 Bézier曲线在计算机辅助几何设计(CAGD)及计算机辅助制造(CAM)中享有特别重要的地位,它仅由控
证券市场中的“羊群行为”(HerdBehavior)是一种特殊的非理性行为,我们把它定义为投资者在信息环境不确定的情况下,行为受到其他投资者的影响,模仿他人决策,或者过度依赖于舆
  论文分三部分,第一部分讨论无向环和无向环形树的负载问题,包括第一,二章:第二部分讨论有向环和有向环形树的路径选择问题,包括第三,四章。第三部分提出改进的有向环负载
本文考虑具有Dini-型条件的奇异积分算子:Tf(x)=p.v.∫Ω(x-y)/Rn|x-y|nf(y)dy.其中Ω是定义在Rn单位球Sn-1上具有零平均和零次齐次函数.对于b∈BMO,定义b与T构成的交换子Tbf=[
在非线性泛函分析中,变分不等式理论已成为其不可或缺的一部分,本文的主要工作就是引入一些迭代法来寻求有限族非线性映像的公共不动点,并把它用于解某个变分不等式。  本研究
01用月球代表指针的Earth and Moon概念手表俄罗斯设计师Alexander Sorokin创意十足,将地球和月亮带到手表中,设计了这款名为“Earth and Moon”的概念作品,用Earth and Moon
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文研究的是带有一弱边界层和一可展开强边界层的一维拟线性粘性方程解的渐近极限性,探讨在边界层存在条件下的渐近等价性.目的是理解粘性边界层的进化与构造以及内部无粘双