基于稀疏回归模型的图像标注研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:bassjhnn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像标注是大规模图像检索技术的基础,是多媒体领域的研究热点之一。图像标注的目标是为图片指定几个关键词描述其所含的视觉信息。常见的应用中一张图片同时可包含多个关键词,所以图像标注可扩展为多标签图像标注技术。两者都有广泛的实际应用。首先,本文研究了在自动图像标注和多标签图像标注中常用的一些方法,并介绍了对回归模型进行稀疏约束的概念和方法。本文提出了两种图像标注模型分别针对自动图像标注和多标签图像标注问题,并引入了l1稀疏约束项来规范模型参数,使得模型具可解释性。这两种标注模型分别为稀疏logistic回归模型和双层稀疏logistic回归模型。稀疏logistic回归模型以logistic函数学习图片视觉特征与图片标注间的关系,表现为给定图片特征向量求对应标注的条件概率。一般性地,考虑到每个标注只与几个有限个数的视觉单词相关,因此在模型中引入彩l1稀疏约束项来规范模型参数,使得模型更具可解释性。双层稀疏logistic回归模型分为两层。第一层分别学习了图片视觉特征与标注间的关系以及不同图像标注间的语义相似性关系。第二层将这两种不同信息结合起来,并以这些信息指导图像的自动标注过程。同样地,考虑到每个标注不仅只和几个有限个数的视觉单词相关,而且只和所有标注集合中的一小部分标注相关,因此在模型中分别引入两个l1稀疏约束项来规范模型参数,使得模型更具可解释性。
其他文献
在高中思想政治课教学中渗透中华优秀传统文化的元素,并采用恰当的教学策略帮助学生明晰、认同、理解、掌握和内化中华优秀传统文化的内涵,有利于中华优秀文化的DNA植入学生
随着网络技术的发展,视频传输等流媒体技术得到了很大的发展,流媒体不同于其他数据类型的传送,要求高的带宽、低的时延和包丢失率。多网卡绑定(作为一种低廉的技术)可以提高
图像语义理解是计算机视觉领域中重要的研究方向之一,其研究成果可应用于机器人导航,无人驾驶,虚拟现实,图像检索等众多领域,具有重要的实用价值和学术研究意义。图像语义分
随着网络的快速发展和网络应用范围的不断扩大,网络正在影响社会的政治、经济、文化、军事和生活。为了共享和利用网络信息和资源,越来越多的个人、企业及政府部门将电脑连接
特征提取是人脸识别研究中的最基本问题之一。在这一研究领域,提出了许多经典的算法,如基于子空间的主分量分析方法,线性鉴别分析方法和独立成分分析方法等,以及在支持向量机
1月24日,康耐视公司宣布其获奖的视觉传感器产品系列中又新增Checker4G系列。康耐视的新型Checker 4G视觉传感器的设置同样强大且简单。Checker的重要特征有,可通过以太网
模式识别是人工智能领域研究的重要内容,而字符识别是模式识别的典型代表。传统的字符识别对象以平面为主,而曲面上的字符存在着很大的形变,其方向也难以确定,相比平面而言存
安装在井下进风巷道中的局部通风机,是服务于掘进生产的通风设备,具有供给新鲜风流,冲淡瓦斯和煤尘、吹散炮烟、调节气侯的功能。无论是正常生产还是交接班时间,都不准随意停开局
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search engine)面临着空前的挑战。垂直搜索引擎(ver
伴随着Internet的飞速发展,Web技术在各行各业得到了广泛应用,并发挥着越来越大的作用,同时也加快了国家的信息化进程。特别是Web2.0时代的到来,越来越多的政府机构、公司企