【摘 要】
:
从生产到生活,从制造到服务,从工业到金融商贸,大数据时代的大门已经开启并悄然改变着这个世界。在互联网上每日会产生海量的数据,以多种多样的表现形式呈现出来,如文本,图像,视频,音频等等,这极大的丰富了我们生活。与此同时大规模数据的高效存储和快速检索也作为一项极具挑战性的任务得到人们的广泛关注。哈希方法能够将高维的样本特征映射成紧凑的低维二进制哈希码,具备存储消耗低和检索速度快的特点,因而成为了解决大
论文部分内容阅读
从生产到生活,从制造到服务,从工业到金融商贸,大数据时代的大门已经开启并悄然改变着这个世界。在互联网上每日会产生海量的数据,以多种多样的表现形式呈现出来,如文本,图像,视频,音频等等,这极大的丰富了我们生活。与此同时大规模数据的高效存储和快速检索也作为一项极具挑战性的任务得到人们的广泛关注。哈希方法能够将高维的样本特征映射成紧凑的低维二进制哈希码,具备存储消耗低和检索速度快的特点,因而成为了解决大规模媒体数据检索问题的一个重要方法。当前深度学习技术飞速发展,以强大的特征提取能力为多个领域所采用,深度学习的提出弥补了手工特征提取方式的笨拙同时能够得到抽象高效的特征表示,从而有很多学者提出将深度学习和跨模态哈希方法相结合从而提高检索效果。然而近年来提出的许多深度跨模态哈希模型依旧存在些许不足之处:通常,现实世界中的数据是不完善的,并且具有或多或少的冗余性,这使得跨模式检索任务具有挑战性。但是,大多数现有的跨模态哈希方法无法处理冗余,从而导致在上述数据集的性能无法令人满意。以图像和文本模态为例,很多方法未考虑原始数据样本集中的图像内容的丰富性,仅以整张图片作为一个整体输入网络提取特征进而学习哈希码,无法对图像中的主要信息有所侧重同时又使得图片背景等冗余部分影响有效特征的提取;同时对于文本标注信息而言,原始数据包含大量的噪声干扰,因此使用这样的数据同样会影响有效特征的提取;此外,许多深度方法为了提高模型检索效果而引入了一些复杂网络模型,如生成对抗网络,LSTM网络等,但是参数量的大幅度增加会导致时间耗费的增加。针对以上问题,本文提出了一种新的深度跨模态哈希方法-注意力感知深度跨模态哈希方法(TEACH:aTtEntion-Aware deep Cross-modal Hashing),它可以同时进行特征提取和哈希码学习。方法创造性的提出注意力感知方法(Attention-aware method),借鉴当前计算机视觉领域热门的注意力机制,发挥其所具备的选择特定输入(或特征)子集的能力,将该机制引入到跨模态哈希检索任务中来。具体地,对于不同模态的样本我们设计了不同的注意力模块,从而突出关键部分并且减弱冗余干扰项在检索任务中的贡献。此外,针对深度网络模型引入其他复杂机制后训练时间大幅增加的问题,本文在预训练阶段完成两个局部注意力图的获取,这一步进行的分类任务时间复杂度是O(n)的,远少于那些使用相似度矩阵作为监督信息的深度哈希网络模型的训练时间。同时,简单的分类网络参数量相比于生成对抗网络等复杂模型有较大优势,因此本文在训练检索时间上和传统深度跨模态哈希方法相比没有较大增长。为验证我们所提模型的效果,本文在三个常见的基准数据集MIRFlickr-25K、NUS-WIDE和Wiki上进行了多个实验,并与当前效果较好的跨模态哈希检索模型进行了对比,验证了 TEACH模型的有效性和实用性。
其他文献
“身国一体”指的是:其一,统治者是集治身与治国于一体的存在;其二,治身即治国,治国即治身,身国互喻;其三,统治者在治身与治国上有共同的原则,二者之间可以互通。“身国一体”并非由老子直接提出,本文将其视为老子“身国关系”与“圣人之道”的体现。在老子思想中“身”的含义可分为三个层面:一是作身体而言;二是作生命而言;三是作为自己或自身。“国”在老子思想中指的是“诸侯国”。要准确把握老子思想中“治国”的内
混凝土是一种脆性材料,在施工与服役过程中容易产生裂缝。服役在海洋环境下的混凝土一旦开裂,裂缝将加快外部侵蚀性离子进入混凝土内部,大幅缩短海工混凝土结构的服役寿命。
锂硫电池因其高理论容量1675 m A h g-1、高储能密度2500 Wh kg-1、成本低等优点受到了特别的关注,并逐渐成为下一代储能设备最有希望的候选者之一。但是,由于硫电极在工作过
锂硫电池具有比能量高、成本低、环境友好等优点,在为高性能移动电子设备供能和缓解环境问题方面有着广阔的前景。但是锂硫电池在实际应用中面临着一些障碍,其中包括寿命短、
核酸是一种广泛存在于有机体内的生物大分子,是生命最基本的物质之一。由于其重要的生物学功能,核酸作为一类重要的疾病标志物,广泛用于疾病的诊断与治疗。另外,由于核酸具有
斜纹夜蛾(Spodoptera litura)是一种全球范围内广泛存在的杂食性农业大害虫,已对多种常用杀虫剂产生了较高的耐药性。影响昆虫耐药性的因素有很多,除了研究较多的农药的不合
职业年金是职业人的养老金,其与社会保险制度中的基本养老保险存在一定的差异,主要是建立在基本养老保险制度基础之上,创建的养老福利制度,是我国养老产业第二支柱。我国从2011年正式提出在事业单位实施职业年金制度,由于我国政府机关和事业单位的薪酬制度、养老金的属性和改革历程基本一致,所以,我国的职业年金计划一般是指政府机关及事业单位的补充养老金制度。职业年金计划的目的是保值增值,那么,如何对基金进行有效
我国经济增长变慢的背景之下,资源环境约束趋向于紧张,因此在目前的经济发展趋势中,绿色发展理念成为引领当前中国经济发展转型的基本宗旨。在绿色发展转型的要求中,能源效率是很重要的一方面。能源效率作为考量绿色发展和能源使用情况的关键指标,是在现在的经济和能源约束之下破解两者之间矛盾的核心。和一般的经济衡量指标不同,出口竞争力是一个可以更全面、全景式地衡量我国经济在世界范围内的地位和发展方向的指标,应当深
割草机蜗壳就是指割草机机体,因为它的外形很像蜗牛壳,故通常简称蜗壳。割草机使用时高速旋转的刀片很容易割到石子、树桩等隐藏在草内的杂物,它们在刀片巨大的冲击力下被抛
极限多标签分类是机器学习领域一个新兴的研究方向,它常被用于推荐系统、文本分类等实际应用场景中。这些应用通常数据体量大、对模型的训练速度要求高,因此,加快模型的训练速度成为了极限多标签分类的主要研究方向,本文也以加快模型的训练速度为主要研究内容。标签树模型因其解释性好、训练速度快,成为了极限多标签分类的主要解决方法。本文以标签树为研究对象,针对标签树难以并行化的问题,发掘结点间的数据无关性以及结点层