论文部分内容阅读
专利检索是专利撰写及审查过程中的重要活动。现有专利检索系统主要采用基于文本匹配的技术。但专利文档中不仅包含文本,还包含诸如分子结构图、算法流程图等各种蕴含丰富信息的图像。随着数字图像处理技术的发展,人们开始探索基于图像的高效专利检索技术。流程图是专利文档中常见的图像,具有重要的语义。但具有相同或者相似语义的流程图布局多样,为实现基于流程图像的专利检索必须首先识别流程图像的语义,即将流程图像识别为描述流程图的文本信息。现有研究主要采用基于连通域的方法提取并识别流程图结构元素,但这类方法不能准确地识别包含断边和图文粘连等缺陷的结构元素。为此,本文充分利用流程图像角点特征的稳定性,深入分析流程图像角点分布与结构元素之间的密切联系,提出了一种融合结构模型和角点特征的流程图像识别方法,并结合公开的CLEF-IP流程图数据,验证了方法的有效性。具体来讲,本文完成如下研究内容:第一,在总结流程图绘制规范并归纳其典型结构元素的基础上,提出了基于角点特征的流程图结构模型(CBSM)。该模型首先将流程图中结构元素抽象为角点组合,对这些角点分类及定义;其次将图元和连接线上角点的分布关系形式化,设计描述图元与连接关系的角点组合规则;最后为了简化角点组合的判断过程并包容实际情况中的偏差,定义角点组合约束。模型为开展后续角点检测与分类、流程图结构元素识别研究奠定理论基础。第二,基于CBSM设计并实现了流程图角点的检测和分类方案。首先,采用连通域标记方法将预处理后的流程图像图文分层,得到流程图结构;其次,总结经典角点检测方法,通过实验对比分析并设计针对流程图结构的角点检测方法,为结构图的角点检测提供了新方法;最后,将得到的角点抽取高维特征向量,遵循CBSM中的角点类型定义,采用机器学习方式实现角点分类,再通过交叉验证进行参数调优。实验结果表明,基于该方案的流程图角点分类准确率可达到91.8%。第三,设计了基于CBSM的结构元素识别算法。首先,总结分析了CLEF-IP中流程图结构识别难点;其次,结合CBSM中角点组合规则和约束,设计针对图元和连接关系等不同结构元素的识别算法,该算法根据遍历得到的角点组合信息判断并识别结构元素。此外,本文还采用经典的OCR算法识别流程图中文本信息,将其与已识别的结构信息构成最终文本描述。实验结果表明,本文方法能够有效地识别流程图像并避免断边以及文图粘连对识别的影响,流程图识别率达89%。