印刷体数学公式抽取方法的研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:lszll2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年的发展,OCR(光学字符识别,Optical Character Recognition)技术已经进入了实用阶段,而且其速度和准确率都达到了令人满意的程度,克服了人工输入费时费力的缺点。然而现有的OCR系统在处理文档时,对其中的数学公式无能为力,只能将其按图片存储,不但占用大量空间,而且不能进行编辑和检索。在网络高速发展的今天,资源共享和资源复用越来越重要,把大量的含有数学公式的科技文献以电子文档方式保存显得尤为重要。因此,数学公式自动识别技术具有很高的实用价值。数学公式识别系统分为数学公式抽取、公式符号识别、公式结构分析和公式重构四个模块。数学公式抽取是其中的一个重要环节,相关研究已有很多,但这些研究大多基于识别结果且针对的是英文文档。本文针对中文文档自身的特点,提出了一种孤立公式、内嵌公式分步处理,内嵌公式分级处理的层次抽取方法。该方法分为两步:孤立公式抽取和内嵌公式抽取。对于孤立公式,采用统计特征并引入基于模糊逻辑的判决规则,取得了较好的抽取效果;对于内嵌公式,先用统计特征对图像中的字符粗分类,然后用内容特征对字符进行细分类,最终完成内嵌公式的抽取。这种分级处理内嵌公式的思想结合了统计方法速度快和识别方法精度高的优点,取得了较好的抽取效果。实验表明,这种层次抽取的方法对含有数学公式的中文文档具有较好的适应性和较高的准确率。
其他文献
随着当今计算机网络技术和多媒体技术的发展,远程教育也进入到了一个崭新的发展阶段,即第三代远程教育。第三代远程教育具有数字化、多媒体和交互式等显著的技术和教学特征,它是
随着互联网技术的发展,网络安全问题已经成为目前计算机网络发展所迫切需要解决的问题。防火墙技术是目前保障网络安全的主要手段之一。传统的边界防火墙在保证网络安全中发挥
近年来,我国道路交通事故越来越多,特别是高速公路交通事故越来越严重。如何减少和预防交通事故,降低事故损失,改善交通安全状况就成了道路交通运输领域亟待研究解决的问题。要实
在一个理想的交流电力系统中,电能是以一恒定的工业频率(50Hz 或60Hz)和正弦的波形形式传输的。电力系统频率的波动,电压的波动和闪变(波动的幅值和频率),供电的连续性(年不停电
随着信息经济时代的来临和经济全球化的进一步加快,信息化浪潮正席卷全球,信息化革命正在打破并重组现存国际经济秩序和架构,并促使其由物质型向信息型经济转变。大量的企业为了
基于全景图的全景空间在虚拟现实应用中扮演着重要角色。全景空间将传统二维平面,如电子地图、平面设计图等,转换为三维立体展示,如街景地图等,增强了空间立体感。但是,目前构建全
随着互联网技术的快速发展和全球信息化步伐的日益加快,现代互联网路作为信息社会的基础设施已渗透到社会的各个方面。提供网络资源服务的各类网络服务系统获得了广泛的应用,许
当今互联网的信息是海量的,如何从这些海量的信息中获取重要的和用户查询相关的信息资源是很重要的,个性化搜索引擎在这样的背景下产生了。然而,当前搜索引擎返回的搜索结果数目
不断提高的计算能力要求和迅速发展的互联网技术促使了网格的产生,它被广泛认为能够取代互联网成为下一代网络技术。服务网格通过网格服务的形式为用户提供服务。服务网格不但
从出现Internet到1992年开始引入商业化数据流以来,Internet已经迅速从一个研究性网络发展成一个全世界范围的商业性数据网络。Internet已经成为用户合作、学习、电子商务和娱