【摘 要】
:
近年来,随着公式识别技术的不断发展,公式识别领域出现了一个新的研究问题——化学表达式识别问题。由于化学表达式和数学表达式一样,是自然科学领域应用广泛的一种表达式,因
论文部分内容阅读
近年来,随着公式识别技术的不断发展,公式识别领域出现了一个新的研究问题——化学表达式识别问题。由于化学表达式和数学表达式一样,是自然科学领域应用广泛的一种表达式,因此它的识别问题已得到了关注,国内外相关领域研究人员已经提出了一些解决方法。本文正是针对化学表达式的自动识别技术展开研究,与普通文本相比,化学表达式在尺寸、结构、分布上特点显著,这些均为印刷体化学表达式的成功识别创造了条件。作为OCR技术的一个专项领域的扩充,通过计算机对文档图像中包含的化学表达式进行自动定位、提取和识别以及输出,从而实现对其重新编辑、验证、复用等功能。在电子计算机技术、网络技术加速发展的今天,开展对化学表达式识别技术的研究有着重要的理论意义和实用价值。 本课题在实验室前期的研究成果——中文印刷体文档识别系统的基础上,对该系统进行了功能上的完善和扩充,实现了其对印刷体化学表达式的识别,本文主要工作概括叙述如下: 首先,构建了化学表达式识别框架,从文档图像预处理、化学表达式提取、字符识别以及结构分析等方面对化学表达式识别系统进行设计,采取了模块化的设计思想解决问题。 然后,提出了基于改进投影法的化学表达式定位技术,主要包括化学表达式的行提取、合并,化学表达式行的判别以及化学表达式的定位提取。 其次,通过基于支持向量机的算法对定位后的化学表达式进行环/非环的分类,并分割出化学表达式的文本单元与结构单元,然后利用基于改进的霍夫变换法对化学键等结构进行识别,同时充分考虑了立体化学键——楔形键的识别问题,将其宽度与已提取的普通化学键平均宽度进行对比从而实现了对楔形键的识别。 最后,选取WordEQ域作为化学表达式识别结果输出的有效格式,编写了表达式的域代码,给出了本文的输出结果,并同国外的几款相关软件进行横向对照,从而分析各方法的优缺点。 综上,本文在原有的中文印刷体文档识别系统的基础上,完善了其识别功能,扩充了其识别内容,实现了对化学表达式的处理,为化学信息的复用奠定了基础。
其他文献
浮选是利用矿物颗粒表面润湿性的不同来实现矿物分选的一门技术,其泡沫的表面视觉特征直接反映浮选生产工况。目前,国内大多数选厂对浮选状态的判别仍然停留在人工观测的基础
作为研究热点之一,稀疏表示技术在人脸识别领域已经取得了一定的成功。尽管现有的基于稀疏表示的算法能够取得较高的分类识别率,它们都假设所有错误分类引起的代价是一样的。然
本论文在对高等学校电子信息类专业所用的传统实验教学系统及当前高等教育学校的需求进行了充分调研的基础上,研发了一套基于虚拟样机的教学实验系统,以满足师生的需求。 本
双馈感应发电机(DFIG)的转子转速测量对其控制系统设计具有重要意义,但是由于传统的速度传感器在双馈风力发电机组上应用会带来许多问题,需要对无速度传感器的转速测量技术进行
为适应信息化时代对现代大型企业设备管理的新要求,本文在国内某大型棉纺织企业设备管理信息化开发的背景下,从设备状态评估和检修计划优化两个方面展开研究,并完成了设备管理信
电阻抗断层成像技术(EIT:Electrical Impedance Tomography)是当今生物医学工程学重大研究课题之一。它是继形态、结构成像之后,于近30年才出现的新一代医学成像技术。由于电
控制器局域网CAN定义了物理层和数据链路层,但没有在应用层定义报文标识符和数据字节的使用。CANopen是一种基于CAN总线的开放的、标准化的应用层协议,并在国内外的工业自动
盲均衡和盲检测技术因不需要训练序列而得到广泛关注和研究。多进制相移键控(M-ary quaternary phase shift keying, MPSK)调制已作为高效的调制方式在无线通信系统中得到广
H.264/AVC是由国际电信联盟电信标准化部门(ITU-T)和国际标准化组织/国际电工委员会(ISO/IEC)联合提出的最新一代视频编码国际标准。该标准采用了多种先进的视频压缩技术,在同
近年来,随着科技的快速进步,多智能体系统得到迅速的发展,其相关设备也得到了广泛的应用。这些多智能体系统设备,具有极高的非线性特性,而这些非线性特性会导致许多不良因素的出现,例如电源端会出现谐波、增加虚功、降低系统效率,以及降低功率因素等弊端。为了克服这些问题,多智能体的有限时间收敛电力滤波控制器被广泛讨论和研究。由于带有自调整因子模糊控制器可采用未知系统参数,且瞬时响应及收敛性均优于基本模糊控制器