面向检索的多媒体数据表征研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:www_52810_com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据检索是机器学习中重要的研究领域。机器学习算法对数据潜在信息挖掘能力的提升,以及提取的表征对数据相似性可衡量能力的增强,对检索任务而言有着非常重要的研究意义。凭借执行效率高和存储空间低的特点,哈希学习在检索领域中被广泛地研究和应用。哈希学习方法将高维原始空间的数据进行降维处理和编码操作,并映射成短小紧凑的二进制向量。该短小的编码在保持数据间相似性关系的同时,不但提升了检索效率,而且降低了数据存储空间。因此哈希编码在检索任务中有着出色的表现。本文以哈希学习方法为基础,对适用于高效检索任务的数据表征方法进行了研究。本文探索了样本间相似性关系的构建方式以及在编码过程中样本相似性的保持方法。这些研究内容可以总结为以下两方面。(1)本文对无监督哈希学习中数据相似性关系的构建方法进行了研究。本文注意到目前多数算法对样本相似性的描述方式单一,而现实场景往往复杂多变,这使得单一的相似性描述方式在实际应用中存在局限性。为了充分挖掘数据潜在的相似性关系,提升对数据样本间相似性关系的表达能力,本文提出了一种基于二部图的鲁棒紧凑表征(Bipartite Graph based Robust Compact Representation,BGRCR)方法。该方法利用二部图对样本间相似性关系进行挖掘,综合考虑了样本间距离相似性和局部重构相似性,从而获取到可以进行高效检索的鲁棒紧凑的数据表征。本文在三个数据集上的实验证明了该方法的有效性。(2)本文对有监督深度哈希算法中获取数据紧凑表征的方法进行了研究。本文注意到目前多数深度哈希方法只关注编码过程中的语义相似性保持,缺少对数据潜在信息的进一步挖掘以及对编码紧凑性的要求。因此本文提出了一种基于注意力机制的判别表征(Attention based Discriminative Representation,ATDR)方法。该方法使用了中心化损失使各类别数据样本的表征更加紧凑,缩减了同类别样本表征间的差异性。此外,注意力机制在本文深度网络模型中的融合使方法能够进一步发掘数据中的信息,并降低无关特征对检索任务的干扰和提升表征的可区分度,使其更加适用于检索任务。本方法在三个数据集上进行实验验证,与目前先进算法的对比实验证明了算法的有效性。
其他文献
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作
学位
生命过程通常复杂而精细,需要许多生物分子共同参与来完成。构建并分析生物网络有助于准确地认识生物分子的功能与作用,识别生命过程中的关键生物分子,从而辅助疾病诊断、药物研发等研究。本文研究了基于分子间关联关系的生物网络构建方法,和基于差异网络筛选潜在生物标志物的网络分析方法。具体研究内容如下:1.提出了基于加权弹性网络的基因调控网络构建算法WEN(Weighted Elastic Net)。由于基因之
学位
《孔子家语》,又名《孔氏家语》,或简称《家语》,按照今传本附《孔安国序》所言,该书与“《论语》、《孝经》并时”,乃“当书公卿士大夫及七十二弟子之所咨访交相对问言语”,即是一部记录孔子及孔门弟子思想言行的著作,因此被杨朝明盛誉为“孔子研究第一书”,虽在国内曾被一度视为伪书,但却在不同的时期被翻译成英、日、韩等多种语言,并对儒学在世界文化中的传播起到了重要作用。其中,与英国传教士赫真信的英译版及日本学
学位
下一个位置预测任务的目的是希望通过分析人类的移动轨迹数据,获取用户的移动行为规律信息,从而预测用户接下来最可能访问的位置,其在基于位置的社交网络服务中发挥着非常重要的作用。然而,实现准确、高效的位置预测仍然面临着诸多挑战。首先,人类的移动行为与时空因素高度相关,使得人们的出行规律经常表现出极其复杂的时空过渡模式。其次,轨迹数据存在稀疏性和异质性问题,严重影响了位置预测模型的移动规律建模效果。最近,
学位
近年来,行人检测在计算机视觉任务上已取得重大进展。目前大多数行人检测方法都基于深度学习框架,采用深度卷积神经网络(Convolution Neural Network,CNN)来提取特征。然而,CNN中的卷积属于局部操作,主要针对局部图像获取局部信息,无法提取图像的全局信息,并且依赖下采样来获得高级语义特征,不能选择性地关注重要的通道和特定的空间位置,导致检测器的性能受限。此外,实际行人检测场景通
学位
脉冲神经网络,作为第三代神经网络,具有时间连续性、高能效、快速处理和生物合理性等特点,近年来逐渐应用在机器人领域。导航避障任务对于机器人来说是一项最基础且最重要的功能,但如何设计出高效且生物可解释的移动机器人复杂场景下的避障与导航算法是一项重要的研究问题。大多数方法通过人工设计的脉冲模型在大量的数据集中不断训练来实现固定场景下的避障与导航功能。但这些方法面临着如下问题:第一,脉冲模型的训练需要大量
学位
长非编码核糖核酸(long noncoding RNA,lnc RNA)作为具有代表性的一类非编码核糖核酸(non-coding RNA,nc RNA),通常被认为不具备编码蛋白的能力。然而,最近研究发现,部分lnc RNA含有不超过300个核苷酸的小开放阅读框(small open reading frames,s ORFs)具有编码小肽的能力,打破了人们对nc RNA不能编码的传统认知,且在后
学位
遥感图像的三维建模及渲染方法是地理信息技术、数字图像处理、人工智能和计算机图形学等领域的热点研究之一,其在地质研究、国土资源监测、城市建设等诸多领域有着不可替代的作用。随着近年来大规模开放世界、数字孪生城市和元宇宙等前沿研究概念的提出和发展,业界对高效率、高质量、迭代速度快、泛用性强的三维遥感图像建模方法和渲染方法的需求日益迫切。为了解决这一问题,本文将三维过程化内容生成(3D Procedura
学位
近些年,深度学习技术的迭代发展促使生产生活愈发智能化。在人机交互、安全监控、体育训练等多个领域内,动作识别技术有着极大的社会需求和发展前景。动作识别任务包括针对如视频模态、骨架模态等不同输入数据模态的子任务。相较于视频模态等其他数据模态,骨架模态可以避免背景信息的干扰,近年来,图卷积理论的提出与完善促进了骨架序列动作识别技术的发展。然而,现有基于图卷积的骨架序列动作识别方法仍存在局限性。本文从网络
学位
图像抠取(Image Matting)是指从一张任意输入的图像中精细地抠取出用户所感兴趣的前景物体,该前景可以为人、动物、植物或网状等类别。被抠取的前景可以被多个应用领域所使用,譬如:绿幕电影拍摄及制作、虚拟现实(Virtual Reality)和增强现实(Augmented Reality)、在线会议背景替换、网络主播换装等。随着大数据时代的到来,海量的互联网数据对图像抠取算法带来了一系列新的挑
学位