论文部分内容阅读
外观设计专利图像是中国外观设计专利的主要组成部分,对准确表达外观设计专利的设计要点具有非常重要的作用,因此基于图像内容的外观设计专利检索具有极大的意义。基于内容图像检索的基本思想是利用图像的底层特征表征该图像。然而,由于图像的底层特征来自于像素间的灰度关系,通常并不能准确表征图像的语义信息,导致检索精度极低。外观设计专利图像具有与互联网上通用图像不一样的特点:专利图像目标物体单一,背景颜色单一,像素清晰,视角规整,并且图像类别清晰,具有较好的可区分性。因此有监督的机器学习分类方法能够较好的将外观专利图像分类开来,在一定程度上缩小语义鸿沟。针对直接检索的不足,结合外观专利图像的特点,在图像检索架构中引入基于机器学习算法的分类模块以提升外观专利图像检索的精度。不同于直接检索,首先利用支持向量机将外观专利图像分类到不同的视觉类别中,之后在该视觉类别中检索。同时,由于分类无法达到百分百准确,被错分类的图像检索精度极低,为改进这一问题,对极可能分错的图像进行全局检索,保证其检索精度与直接检索相当。为了提升检索响应速度,引入局部敏感哈希算法对数据建立索引。该算法消耗内存较多,将其分布于多台节点上建立多机索引以缓解单台节点的内存压力。实验表明,基于分类的检索比直接检索结果精度高出近一倍,查全率和查准率均达到80%以上,较国外的专利图像检索系统高出至少10个百分点。同时响应速度保证在2s以内,单台节点内存消耗也在可承受范围内。