论文部分内容阅读
近些年来随着社交网络的快速发展以及普及,人们将越来越多的时间放到了社交网络上,这使得社交网络成为最有潜力的广告以及商业平台。品牌跟踪是近些年出现的一种服务,通过分析品牌在媒体上曝光的频繁程度以及用户的评价来评估品牌的成长。由于社交网络的发展,品牌跟踪逐渐将重心转移到社交网络上。对于品牌跟踪,在当前社交网络平台上仅仅提供通用的关键词搜索功能,这带来两个弊端:第一搜索结果中含有大量噪声,尽管含有关键词,但经常与该品牌并不相关;第二大量含有品牌图片的信息无法被检索到。为了解决问题二,本文提出一种新的LOGO(商标)检测方法,将社交网络中用户上传的包含品牌LOGO的图像检测出来。这既可以作为一个独立的应用,直接作为品牌跟踪功能;也可以作为一个品牌分析系统的一部分。社交网络上的图像有较大的比例为用户自己拍摄上传,图像质量往往较低,包括光线条件差、图像模糊、拍摄角度差,这使得图像中的LOGO发生光照不均匀、倾斜旋转、弹性变形、部分被遮挡等问题。此外,为了增加辨识度,LOGO往往被设计成简单的图形,这使得其与自然图像中的物体外形相似。这些都增加了LOGO检测的难度。为了解决社交网络图像的LOGO检测问题,本文研究一种基于机器学习的LOGO检测方法并评估其在社交网络上的应用。本文主要贡献如下,一方面,本文建立了一个包含100个品牌LOGO的图像训练集以及测试集。其中训练集给出LOGO的位置、大小以及其旋转角度。测试图像包括100万张图像,每张图像已经标注好是否含有LOGO,以及LOGO的位置和大小。训练集中每个LOGO的样本数量平均超过300张。该数据集涵盖了LOGO在不同光照、面内旋转、模糊、拍摄角度的情况,对后续科研人员进行使用并测试具有很大的价值。另一方面,本文使用了一种新的LOGO检测算法。由于本课题采用机器学习的方法进行LOGO检测,这是一个正负样本严重不均衡的问题。而训练的过程中指定正负样本比例,因此本课题提出将每一级AdaBoost的节点选择出来的特征作为输入,得到一个线性分类器,克服正负样本不均衡的情况。最后本文给出一种基于LOGO检测算法新的品牌跟踪的方法,通过判断社交网络图像中是否含有LOGO来给出品牌的关注程度,给出阶段性的品牌关注度分析,从而补充了现有基于文本关键词的缺陷。