中文科技文档中数学公式的抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zfjbjxw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,越来越多的资料被以文档图像的形式存储到计算机上。通过网络进行信息的存储、查找和传播也越来越成为当前信息流通的主要渠道。如何快速、高效地将这些文档图像转化为可编辑的格式成为急需解决的问题,文档图像分析技术作为一个新的研究领域应运而生。光学字符识别(OCR)是文档图像分析的核心技术。现有的OCR系统对打印字符已经能做到很高的识别率。而数学公式由于其存在二维结构,单纯通过扩充识别系统字库无法完全记录公式图像所含全部信息。如何将打印科技文档中的公式进行定位、识别和重组,依然是一个正在研究中的课题。虽然已经提出了多种算法,但这些算法大部分是针对英文环境下的文档。由于中英文在字库技术,字符连通体构成上的诸多不同,简单地将英文环境下算法移植到中文环境下会产生大量错误,且没有利用中文文档的特点,是不可取的。本文首先在绪论中介绍了文档图像分析技术,以及模式识别和神经网络等相关领域的背景知识。在定位数学公式的时候,本文给出的新算法需要对数学符号进行识别。第二章主要介绍了利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别的技术。第三章首先回顾了当前一些应用于英文环境中的公式定位算法,提出了这些算法在应用于中文科技文当时会出现的问题,讨论了标记连通体这一当前文档分析技术中非常依赖的技术。并对中文字符的特点,中文文档排版的特点,人类阅读方式,及科技文档中普遍存在的公式分布局部性进行了讨论。在此基础上,本文提出了一种新的算法,该算法采用输入框组并行的读入目标,并判定其是否是规则汉字,从而规避了标记连通体步骤。并且利用了公式分布的局部性,对不同密度采用速度不同的算法,从而提高了整体公式定位速度。对于算法中遇到的各种具体问题,包括输入框标准的确定,汉字的确认,排版微调造成的所占空间的小差异等等,都给出了具体的解决方法。在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向。
其他文献
期刊
王琨老师前几天在上海举办了个展,展馆不大,来的人不少。在研讨会上各路大咖对王老师的油画、书法、文章以及古琴进行了深入而细致的肯定。轮到王老师发言,先是感谢了各位同
本文致力于研究惯性约束聚变(ICF)内爆压缩过程数值模拟中需要解决的两个关键问题,一是探索内爆过程中遇到的多介质可压缩大变形流体及流体界面不稳定性的高精度Euler数值模拟
证券投资的最根本目的在于获取最大利益。为了分散风险,投资者将许多证券组合在一起进行投资,即所谓的投资组合。证券组合投资理论是现代金融理论的重要部分,其核心问题是如何对
学位
本文根据登革热感染的机制,分别建立了宿主隐性感染和媒介常数输入的登革热的动力学模型及宿主隐性感染和媒介垂直传播的登革热的动力学模型,并讨论了两个模型的动力学性态和生物意义.第一章,介绍了登革热病毒的疫情、登革热的背景知识、国内外登革热动力学模型的研究进展及本文所需的基本理论知识.第二章,建立了宿主隐性感染和媒介常数输入的登革热动力学模型.首先证明了模型解的可行域是正向不变集且紧吸引集,并给出模型的
学位
课堂是一个充满活力的生命整体,是学生生命自我建构的天地,处处蕴涵着矛盾,其中生成与预设之间的平衡与突破,是一个永恒的主题.理想的语文课堂应该是丰富多彩的、灵动的、焕
运用“大学生认为具有何种素质能更好适应社会”的调查表和因子分析对河南工业大学的四个年级的在校大学生进行大学生具有何种素质能更好适应社会的期望调查,对调查结果进行
砼是建筑结构施工中用量非常大的一种建筑材料,具有很多优良的特性,但是,钢筋砼在施工的过程中容易出现质量问题,而有些质量问题是可以人为控制的。对施工过程中钢筋砼结构的
期刊
笔者深入介绍了高层建筑的具体特点,着重探讨了高层建筑施工管理中广泛存在的若干问题,并提出了提高高层建筑施工管理的相应措施及方法。
期刊
本文的研究内容来源于全国优秀博士学位论文作者专项基金(200565)。 分别在传统的零售商管理库存模式和现代的供应商管理库存模式下,研究了确定需求的由一个供应商多个零售