语义相似性保持的跨模态哈希检索研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:lingqinhui47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络技术的提升及多媒体数据的爆炸性增长,这使得我们在现实生活中要面对的数据量越发庞大。同时,我们目前的需求不再满足于单一模态数据的相似性检索,而是多模态数据间的相互检索,即跨模态检索。而哈希技术的出现大大降低了检索时间与存储成本,因此在近年来也引起了广泛的关注与应用。经过多年的研究,跨模态哈希技术尽管有了不小的进展,但仍然存在着一些问题需要解决。例如大多数有监督哈希方法仅仅将标签信息转换为实例间的成对相似性来指导哈希码的学习,这会导致语义信息的丢失从而使哈希码无法保留标签所反映的区分信息。而一些方法单一使用了标签的类别信息,对标签信息的进一步转换利用还有待提高。针对现有的问题,本文在哈希学习相关工作的基础上进一步探索了标签的语义信息,从而提出了两种语义相似性保持的有监督跨模态哈希方法。本文的主要研究内容与贡献总结如下:(1)为了充分利用标签的信息,本文提出了标签松弛回归跨模态哈希(LRRCH)。该方法通过语义相似度矩阵保留了实例间的成对相似性,同时应用标签的类别信息生成哈希码。在嵌入标签的类别信息过程中,LRRCH通过将标签矩阵松弛为标签松弛变量矩阵,使标签由定值变为区间从而扩大不同类别之间的边距;然后通过标签松弛回归使哈希码能更好地保留标签的类别信息,同时这也为哈希码拟合标签提供更大的自由度与优化空间,从而使学习到的哈希码能具备更高的语义相似性和类别判别力;最后,在哈希码的学习过程,引入正交与均衡约束以生成更高质量的哈希码。(2)在LRRCH的基础上,针对其不能在大规模数据集上使用的问题,本文进一步提出了可扩展的标签松弛回归跨模态哈希(SLRRCH)。该方法在保留LRRCH中标签松弛回归项的同时,将不同模态异构数据之间的相关性和差异性通过相应标签之间的余弦值来近似,并使哈希码的内积近似于从标签中导出的相似性,由此将获得的语义信息嵌入到哈希码的学习过程中。此外,为了使学习到的哈希码能更好地保持与标签的语义一致性,SLRRCH还通过正交旋转矩阵提供的一组正交基将语义子空间进行谱旋转从而近似汉明空间,而语义子空间能更精确地度量实例的语义相关性,因此所学的哈希码能嵌入更多的语义信息以提高模型的检索性能。最后,SLRRCH的优化算法通过对标签矩阵展开运算,并巧妙地操作矩阵运算过程,从而避免了n×n成对相似性矩阵的显式使用,这使其可以扩展到大规模数据集。(3)本文提出的两种方法在Label Me、MIR-Flickr及NUS-WIDE三个公开数据集上进行了大量的实验比较,实验结果表明本文方法均优于近期数个效果不错且稳定的跨模态哈希方法,从而验证了本文方法的有效性。
其他文献
随着我国金融消费行业与数字化技术不断融合与发展,非法套利等黑产技术也在不断的更新,黑产团队参与活动屡禁不鲜,给整个金融消费市场的健康发展和正常运行产生了极大阻碍。对风险用户的识别方法的主要难点集中在如何在大规模与形式繁杂的互联网数据中提取与挖掘有效的信息。若不能对健康用户与欺诈用户准确区分,会因错判健康用户导致活动目标无法达成与造成严重经济损失。本文结合机器学习模型预测方法,对风险用户在营销活动非
学位
随着人工智能技术与产业链的快速发展,双足机器人已经越来越多的出现在我们的日常生活中,在许多领域都发挥着巨大的作用。双足机器人性能的优劣在一定程度上取决于控制系统的优劣。因此,研究和设计双足机器人控制系统具有重要意义。本文旨在针对基于准力矩电机驱动的高性能双足机器人原理样机,设计出一套通用的实时嵌入式控制系统,实现双足机器人的基本控制功能,并在双足机器人原理样机上进行验证。本文的主要研究内容如下:(
学位
随着新一代人工智能的兴起和工业4.0概念地提出,注塑智能化在显著的提升,在注塑工厂进行智能工厂的转型过程中,注塑件制品的自动质量检测是其中必不可少的一环,传统的注塑件检测都是通过人工检测,这种方式效率低下,产品稳定性也无法得到保证。实现注塑件制品的自动化质量检测可以提高检测效率、降低人力成本、提高生产效率。随着工业智能化、自动化的发展,基于机器视觉算法在注塑件缺陷检测中得以应用;但是因为需要研究人
学位
近年来,随着电子商务的快速发展,网购在人们日常生活中扮演着越来越重要的角色。然而随着电商网站的商品不断增加,用户发现越来越难找出感兴趣的商品。因此如何设计推荐系统,帮助用户从海量商品中挑选出感兴趣的商品,逐渐成为当前学术界与工业界热门的研究方向。传统的推荐系统采用静态方式对用户交互信息进行建模,只能捕捉到用户静态的兴趣偏好。不同的是,基于用户行为序列建模的推荐系统能够捕捉到用户动态的兴趣偏好。为了
学位
随着自然语言处理技术的快速发展,融合人工智能的人机交互服务也逐渐在互联网上变得多元化。人与计算机的交互不仅局限于简单的计算机指令传输,计算机还可以通过文本或语音等媒介与人进行互动。开放域对话系统作为自然语言处理技术在人机交互中的重要应用,旨在与人进行不限主题内容的对话交互,由于其广泛的应用场景,在近年来已成为人们的研究热点。人类进行交流的语言信号包含语序、语义等语言规则以及情感等隐含表达。现阶段的
学位
随着深度学习理论技术的不断完善与发展,计算机视觉在日常生活中的应用也越来越多。人数统计任务作为计算机视觉领域重要的研究方向之一,也逐渐影响着人们的生产生活。如对于疫情防控,通过统计公共场合的人数如会议厅、车站、教室等场合对疫情防控起到了重要作用。在人流量管控方面,通过对固定区域过往人流量的分析可以给出行人员提供更加可靠的出行策略。本文通过对国内外人数统计方法的研究和分析,分别基于目标检测算法和目标
学位
伴随着无线通信技术的迅猛发展,5G技术也迎来更加广泛的应用,越来越多的设备可以通过无线技术接入到互联网,基于5G技术的万物互联也变成了可能。然而,无线通信业务快速增长的同时也导致对频谱需求的急剧增加。发射功率作为重要的无线通信资源,一种有效的功率控制方法不仅能够提高频谱资源的利用率,还能提高用户的通信服务质量(Quality of Service,Qo S)。深度强化学习在近年得到了很大的发展,它
学位
当前,利用计算机视觉分类算法辅助医生诊断阿尔兹海默症已经成为较高效的诊断方式。对于阿尔兹海默症病灶分类任务而言,最具有挑战的是在大脑类别下精准区分患者MRI与正常衰老MRI之间的差异。一般地,在区分一些具有类间距离小类内距离大的特点的图像时,通过细粒度算法可以捕获到这些图像之间的细微差异,使得模型在某一大类下找到各个子类中具有区分性的区域。因此,有研究者发现将该算法运用在医学图像识别任务中可一定程
学位
随着我国社会人口老龄化日益加重,老龄群体对家庭医疗护理服务的需求不断提高。家庭护理路径规划与调度问题作为家庭医疗护理服务中一个具有挑战性的问题。然而,现有研究大多考虑老人的服务需求是否满足、服务是否及时、老人对服务是否满意等因素,却忽略了老人在选择护理人员上的预算和偏好习惯。因此,综合考虑上述因素,如何设计有效的护理资源调度方法,对降低家庭护理机构的运营成本以及提高行动不便的老人群体的医疗服务质量
学位
随着互联网技术以及社会经济等的高速发展,文档图像数量激增。计算机文档分析在纸质文档电子化、内容识别、内容检索等领域具有广泛的应用。近年来随着教育信息化的不断推进,智能教育成为国家的重要战略之一。新冠疫情下社会对智能在线教育的迫切需求,使得对教科书、习题册等文档的自动分析成为研究的热点。文档版面分析是指根据文档图像中不同区域的语义功能对文档进行区域分割并识别区域类别,是文档分析的关键步骤。其次,面向
学位