卷积神经网络在手绘草图识别中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:woshishaoqiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字技术、人工智能和互联网的不断发展,我们的生活被繁多的图像信息所包围,而且图像的分辨率变得越来越高,存储图像所需的容量越来越大,所需的存储方法也变得越来越多样化,这些都使得现如今的图像数据库不管是在信息量,还是在数量上都大的惊人。目前,图像处理、图像识别和图像检索等领域的主要挑战在于要求更低的时间消耗、更高的准确率和提取更通用的特征。手绘草图是人类最直观且最原始的沟通工具。近年来,随着智能可触屏设备的普及,手绘草图可以轻松地从手机、平板电脑、手写画板上获取,手绘草图的相关研究吸引了越来越多国内外专家学者的注意。目前已有的手绘草图识别方法严重依赖于手工提取特征,如提取区域、轮廓等图像的低层特性,但是由于手绘草图中线条的多变性、个人的主观因素以及不同人绘画基础的不确定性等原因,使得人工提取特征变得十分困难,同时手工提取费时费力且依靠运气,导致了现有的手绘草图的识别率较低,且通用性较差。近年来,深度学习已成为人工智能领域中备受瞩目的研究热点。作为经典的深度学习模型,卷积神经网络在语音识别、姿势识别、图像识别等领域都取得了巨大的成功。但是,经典的卷积神经网络模型主要是为彩色多纹理自然图像设计,手绘草图与之相比,缺少了颜色、纹理等信息。手绘草图一般为二值图像或者灰度图像,具有高度的抽象性和夸张性,并且存在由于用户绘制过程中的停顿和不连贯导致草图轮廓不完整等问题,使得现有模型,如在ImageNet上训练得到的卷积神经网络模型AlexNet,在识别手绘草图时效果并不理想。相较于基于低层的局部图像描述子,卷积神经网络模型能在中间层表述上获得更丰富的表达,但是缺乏几何不变性。而Fisher向量从数学的角度提出了生成概率模型与判别内核方法相结合,具有较好的局部不变性,广泛应用于图像分类、目标识别等领域,特别是结合着BOW(Bag-of-Word,词袋)模型。最近Schneider把Fisher向量应用到了手绘草图上,并取得较好的识别率,但是却没有根据手绘草图的特性进行设计,即相对于彩色多纹理自然图像,手绘草图没有平滑的渐变且更稀疏,并且没有考虑到使用草图的笔画顺序。本文对卷积神经网络在手绘草图识别中的应用进行了深入的研究,主要完成的工作和创新点如下:1.本章提出了一种基于卷积神经网络的手绘草图识别方法,该方法根据手绘图像多结构少纹理信息的特点,使用大尺寸的首层卷积核取代自然图像识别中常使用的小尺寸首层卷积核。由于自然图像的纹理较丰富,使用小卷积核能够提取到细节的变化,而手绘草图缺少这些纹理信息,当使用小卷积核时,会导致大部分提取到的特征为空,使得传递给第二层卷积核的信息较少,信息丢失过快,不能很好地获得草图的结构信息。训练浅层模型作为深层模型对应层的初始值,并加入不改变特征大小的卷积层,不仅加深网络深度、减小模型误差,而且减少训练时长,加快收敛。加入不改变特征大小的卷积层来加深网络深度等方法以降低错误率。2.本章提出了一种融合卷积神经网络和Fisher向量的手绘草图识别方法,该方法根据Fisher向量判别力强的特点,通过对图片使用一个预训练的卷积神经网络,取第8卷积层的输出特征使用Fisher向量,这样可以丰富图像特征的表达,并降低分类器训练的复杂度。由于笔画信息是用户绘制时同步记录的,能够反应用户对事物的理解,一般按照先主要后细节的顺序进行绘制,因此添加笔画信息,在区分两个相似类的图像时,即使局部相似,但却可能存在不一样的笔画顺序,有助于图像识别。使用图像翻转和切片用于数据扩充,可以有效减少过拟合,增加几何不变性。为了验证融合卷积神经网络和Fisher向量的识别方法的有效性,本章对Eits收集的250类手绘草图进行识别,得到了良好的识别率。
其他文献
随着互联网深入到大家的生活之中,与互联网技术紧密联系的无线传感器网络无疑会得到长足的发展。无线传感器网络以通常意义上来讲就是利用传感器节点对某一区域进行感知、采
“结构决定功能”是系统科学的基本观点。如果将复杂系统内部的各个元素抽象为节点,元素之间关系视为连接,那么就构成了一个具有复杂连接关系的网络,通常称为复杂网络。自然
随着网络的快速发展,网络流媒体等数字视频显得无处不在,视频压缩编码也成为数字视频技术中重要的一部分。H.264作为一种最新的视频编码标准,拥有更高的压缩率和更清晰的视频
疾病诊断是医学领域的重要课题。各种医疗机构积累了越来越多的就诊样本数据,人工对样本进行疾病分类预测的结果限于经验、决策能力等主观因素的影响难以避免地出现误差,其分
Web服务发现是指服务请求者以某种方式在不同的Web服务中找到其需要的服务。由于传统的基于关键字的Web服务发现方法存在着低查全率和低查准率等缺陷,将语义引入Web服务发现
实体链接是把文本中的实体链接到知识库中的实体的过程,该工作有效地促进了机器翻译、问答系统、信息检索、信息融合、知识库补全等领域的发展。在实体链接的研究工作中,传统的
近年来,随着互联网的高速发展,网上的多媒体信息也急剧增加,在这些信息中,图像信息的数量巨大。面对浩瀚的信息海洋,人们迫切希望能够快速高效地获取所需要的多媒体信息。有
随着计算机技术,无线通信技术和社会网络概念的深入发展和结合,人们对于位置信息的需求不断扩大,获取移动定位信息的定位技术已成为当前的研究热点。传统的定位技术比较成熟,
云计算是一种新型的计算模式,采用按量付费的模式,为用户提供按需的、便捷的、可用的资源访问服务,有效提高了用户与数据间的交互和管理效率,具有非常广泛的应用前景。云计算
在说话人识别领域,基于支持向量机(Support Vector Machine,SVM)的识别方法是当今的研究热点。同其他模式识别方法相比该方法主要有两个不同点:一是它采用一个非线性核函数来