论文部分内容阅读
随着数字技术、人工智能和互联网的不断发展,我们的生活被繁多的图像信息所包围,而且图像的分辨率变得越来越高,存储图像所需的容量越来越大,所需的存储方法也变得越来越多样化,这些都使得现如今的图像数据库不管是在信息量,还是在数量上都大的惊人。目前,图像处理、图像识别和图像检索等领域的主要挑战在于要求更低的时间消耗、更高的准确率和提取更通用的特征。手绘草图是人类最直观且最原始的沟通工具。近年来,随着智能可触屏设备的普及,手绘草图可以轻松地从手机、平板电脑、手写画板上获取,手绘草图的相关研究吸引了越来越多国内外专家学者的注意。目前已有的手绘草图识别方法严重依赖于手工提取特征,如提取区域、轮廓等图像的低层特性,但是由于手绘草图中线条的多变性、个人的主观因素以及不同人绘画基础的不确定性等原因,使得人工提取特征变得十分困难,同时手工提取费时费力且依靠运气,导致了现有的手绘草图的识别率较低,且通用性较差。近年来,深度学习已成为人工智能领域中备受瞩目的研究热点。作为经典的深度学习模型,卷积神经网络在语音识别、姿势识别、图像识别等领域都取得了巨大的成功。但是,经典的卷积神经网络模型主要是为彩色多纹理自然图像设计,手绘草图与之相比,缺少了颜色、纹理等信息。手绘草图一般为二值图像或者灰度图像,具有高度的抽象性和夸张性,并且存在由于用户绘制过程中的停顿和不连贯导致草图轮廓不完整等问题,使得现有模型,如在ImageNet上训练得到的卷积神经网络模型AlexNet,在识别手绘草图时效果并不理想。相较于基于低层的局部图像描述子,卷积神经网络模型能在中间层表述上获得更丰富的表达,但是缺乏几何不变性。而Fisher向量从数学的角度提出了生成概率模型与判别内核方法相结合,具有较好的局部不变性,广泛应用于图像分类、目标识别等领域,特别是结合着BOW(Bag-of-Word,词袋)模型。最近Schneider把Fisher向量应用到了手绘草图上,并取得较好的识别率,但是却没有根据手绘草图的特性进行设计,即相对于彩色多纹理自然图像,手绘草图没有平滑的渐变且更稀疏,并且没有考虑到使用草图的笔画顺序。本文对卷积神经网络在手绘草图识别中的应用进行了深入的研究,主要完成的工作和创新点如下:1.本章提出了一种基于卷积神经网络的手绘草图识别方法,该方法根据手绘图像多结构少纹理信息的特点,使用大尺寸的首层卷积核取代自然图像识别中常使用的小尺寸首层卷积核。由于自然图像的纹理较丰富,使用小卷积核能够提取到细节的变化,而手绘草图缺少这些纹理信息,当使用小卷积核时,会导致大部分提取到的特征为空,使得传递给第二层卷积核的信息较少,信息丢失过快,不能很好地获得草图的结构信息。训练浅层模型作为深层模型对应层的初始值,并加入不改变特征大小的卷积层,不仅加深网络深度、减小模型误差,而且减少训练时长,加快收敛。加入不改变特征大小的卷积层来加深网络深度等方法以降低错误率。2.本章提出了一种融合卷积神经网络和Fisher向量的手绘草图识别方法,该方法根据Fisher向量判别力强的特点,通过对图片使用一个预训练的卷积神经网络,取第8卷积层的输出特征使用Fisher向量,这样可以丰富图像特征的表达,并降低分类器训练的复杂度。由于笔画信息是用户绘制时同步记录的,能够反应用户对事物的理解,一般按照先主要后细节的顺序进行绘制,因此添加笔画信息,在区分两个相似类的图像时,即使局部相似,但却可能存在不一样的笔画顺序,有助于图像识别。使用图像翻转和切片用于数据扩充,可以有效减少过拟合,增加几何不变性。为了验证融合卷积神经网络和Fisher向量的识别方法的有效性,本章对Eits收集的250类手绘草图进行识别,得到了良好的识别率。