基于深度学习的图像Logo检测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fancyyeast1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,互联网图片数据大规模增长,这些海量的图像所包含的信息是非常有价值的,例如可以使用这些信息对用户进行品牌分析,也可以和社交媒体结合起来分析用户的品牌偏好并向用户进行个性化推荐。本文使用对图像Logo进行检测来对海量图片中的品牌信息进行挖掘。虽然近年来采用基于深度学习的方法在目标检测领域取得了很好的成绩,但在图像Logo检测中的效果却不尽人意,主要是因为图像Logo存在多尺度目标和扭曲旋转目标。不仅如此,Logo目标中存在大量的小目标也是导致检测困难的一个因素。本文为了解决这三个问题,提出了基于尺度聚类的多尺度候选框提取网络以及基于长短期记忆模型的目标上下文分类网络,主要研究成果如下:针对图像Logo存在方向旋转的问题,本文引入了自适应卷积层以及自适应池化层对图像Logo进行特征提取,提高了系统对方向旋转目标的鲁棒性。针对图像Logo检测中存在多尺度检测的问题,本文提出一种改进的多尺度候选区域提取网络。多尺度候选区域提取网络使用不同分辨率的语义信息识别不同尺度的目标,显著地提高了获取的候选框质量。不仅如此,针对图像Logo尺寸分布不均匀且相对于普通目标比较小的特点,本文使用了基于Io U距离的k-means算法对Logo目标尺寸进行聚类,得到了Logo目标尺度的分布情况。从而获取到多尺度候选区域提取网络对图像Logo目标进行候选框提取所需要的先验参数,进一步提高获取的候选框质量。因此,通过多尺度候选框提取网络就可以在不同分辨率的特征图下进行候选框提取,最终得到不同尺度的候选框。进行对比实验验证多尺度候选框网络在候选框提取上的召回率有很大提升。针对图像Logo检测中存在大部分小目标导致不易识别的问题,本文提出了基于长短期记忆模型的目标上下文分类网络对Logo目标进行分类。目标上下文分类网络使用到了目标的上下文信息对目标进行分类,通过将不同尺度的目标上下文信息作为长短期记忆模型的输入得到最终的分类结果。长短期记忆模型有效地利用了不同尺度的上下文信息特征对目标进行分类。最后为了提高边框的准确度使用了适合小目标边框回归的方法,再一次提高了检测的准确度。进行对比实验验证基于目标上下文特征的方法,相比传统的目标检测方法而言,在图像Logo-50数据集上的m AP提升了6个百分点。
其他文献
汉藏翻译事业历史悠久、成果丰硕。二十一世纪是知识猛进、社会大发展的时代。当下社会,人们出现了一种学习传统文化的热情。《论语》作为儒家学派早期的经典著作之一,它在内
汉语动词重叠式作为日常交际中运用范围较为广泛的动词形式,是汉语语法现象中一大特色,也是对外汉语教学中的难点。而考察留学生对某一语法项目的习得情况,也逐渐成为对外汉
建筑施工企业是一个高风险高收益的行业,由于长期风险意识不足,过分追求逐利目的而忽视建筑施工企业内部管控。据调查表明,我国建筑施工企业在管控上严重缺乏,风险管理仍然没
近年来,国内诸多医院开展了罗哌卡因用于剖宫产的国内临床研究应用,对其有效性和安全性进行了论证,对其适宜的浓度、比重及注药速度和时间进行了探讨。表明罗哌卡因腰麻应用
滨海八巨方言属于江淮官话洪巢片。滨海县位于盐城市东北部,东濒黄海,西南、南两面分别与阜宁县、射阳县毗邻,北边与响水县隔江相望。滨海成陆较晚,境内多外来人口,使滨海方
保险行业正处于比较快速的发展阶段,为了能够盈利,构建良好的客户关系是非常关键的,可利用改进Tri-Training算法对大数据保险业客户进行分类.首先确定保险业客户细分的指标;
公益性全民健身服务是我国全民健身计划纲要实施过程中的一个新概念,走公益性全民健身服务发展的道路已成为我团群众健身事业发展的必然趋势。但是,由于受到区域经济、收入分配
《宾退录》成书于南宋,正值古代汉语向现代汉语发展的过渡时期,是语言转变的节点,研究这一时期的语言情况对汉语史具有重要意义。本文在前人复音虚词研究成果的基础上,对《宾
临时量词是现代汉语量词体系中一个比较特殊的小类。其特殊之处在于,它们是在特定条件下临时借用其他词类作量词,且只有和数词组合才具有量词的语法意义。临时量词和数词组合