【摘 要】
:
多模态数据是指同一个事物可以有多种表现形式,包括文本、图像、音频等等。同一类的多模态数据虽然表达的事物相同,但它们之间的表达形式完全不同,存在着巨大的语义鸿沟。多模态数据随着信息技术的飞速发展不断增长,在丰富人们的信息生活的同时也带来了很多问题。如何在海量且无序的多模态数据中搜索需要的信息、识别特定的数据等问题都亟待解决。多模态研究通过一定的技术手段分析和研究不同模态之间的内部联系跨越它们之间的语
论文部分内容阅读
多模态数据是指同一个事物可以有多种表现形式,包括文本、图像、音频等等。同一类的多模态数据虽然表达的事物相同,但它们之间的表达形式完全不同,存在着巨大的语义鸿沟。多模态数据随着信息技术的飞速发展不断增长,在丰富人们的信息生活的同时也带来了很多问题。如何在海量且无序的多模态数据中搜索需要的信息、识别特定的数据等问题都亟待解决。多模态研究通过一定的技术手段分析和研究不同模态之间的内部联系跨越它们之间的语义鸿沟。本文从跨模态检索和跨模态识别两个领域出发,主要做了以下两个方面的工作:(1)信息检索是解决信息爆炸问题的一条重要途径,随着多媒体数据的增长,跨模态检索成为信息检索的一个热门分支。为此,本文提出了一种跨模态哈希检索算法,该算法为不同模态的异构数据找到一个公共的低维语义空间,在公共的低维空间中完成检索任务。最近,很多工作都集中于有监督的跨模态哈希方法,也获得了较高的检索准确率。但是,如何在公共空间中保持数据在原始空间中的局部几何结构和相似性以及如何有效的利用监督信息仍是一个挑战。针对这些问题,本文提出的方法在矩阵分解寻找公共空间时,首先通过建模数据在模态内和模态间相似性得到的其在原始空间中的相似性,然后以相似性关系和监督信息中的类别信息为约束条件,提高了检索效果。通过在两个公开的数据集上的充分实验,本文的方法是有效的且优于最先进的方法。(2)唇语识别又称视觉语音识别,是从连续的嘴唇区域的图像帧中识别出说话人所说的内容,是一个从图像到文本模态的识别任务。本文首先针对句子级别的中文唇语识别数据集稀少的问题,提出了一个收集中文唇语识别数据的过程,并收集了一定的数据进行实验,从而验证了其规范性。目前大部分的唇语识别方法都是通过循环神经网络来捕获时序信息,然而语句中会存在长短不一的多个尺度的关联信息,而RNNs不能对时间序列进行多尺度的挖掘。为此本文提出了一种基于时间卷积网络的句子级别的唇语识别方法,通过多尺度的时间卷积网络挖掘句子序列中不同长度的时序信息,从而提高识别效果。通过与几个基线方法的实验对比,验证了本文提出的方法的有效性。
其他文献
水下图像是获得水下场景信息的重要媒介之一,在水下探测、海洋研究等领域都扮演着重要角色。然而,光在水下传播时会与水体产生强烈的吸收与散射作用,导致水下成像质量下降,严重限制了水下的可视范围。因此,水下成像及复原技术在水下救援、海洋探索以及海洋目标识别等领域都有着重大意义和实际价值。本文首先针对水下图像中散射光去除的问题,采用分层思想分离图像中的散射光,实现了水下图像复原,提高了水下图像的质量;其次针
大数据时代,人们日常生活中处处都在积累着数据,从而导致大量的数据在不停的堆积,这些数据的内在价值是让很多学者们去研究聚类算法的动力。聚类算法的出现,使得巨大的数据得以发挥背后隐藏的价值。聚类有效性指标是对聚类结果进行评价,对于发现正确聚类数起到关键性的作用,然后现有指标存在簇中心分布很接近时难以得到正确聚类数、分离性处理机制过于简单、面向含噪声的数据集效果较差的问题。为此,本研究面向模糊聚类提出了
随着智能化信息时代的到来,校园学生对于获取信息的高效性也越来越重视。目前高校学生获取各类信息需要在不同的App和平台上进行,这对高校学生获取信息造成一定的局限性。在信息爆炸的时代,快速找到自己有用的信息对提高生活品质也显得必不可少。为此,需要搭建基于个性化推荐的、集失物招领、交友、经验交流、买卖交易为一体的校园学生互动管理平台。本平台采用个性化的推荐算法,为每一位学生提供个性化的服务,从而让用户快
卷积神经网络在计算机视觉领域得到了大量的应用,尤其是基于卷积神经网络的目标检测方法目前在学术界和工业界都受到了广泛关注。然而,由于卷积神经网络具有较高的计算复杂度,目前目标检测方法通常依靠大型服务器如GPU(Graphics Processing Unit)进行运算。但是,当前GPU平台存在功耗高、体积大以及成本昂贵等缺陷,使得基于卷积神经网络的目标检测方法难以应用于移动机器人、无人机等轻量化平台
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以
面部表情是最直接、有效的情感表达方式,与之相关的人脸表情识别技术也被广泛应用于人机交互、智慧医疗等多个领域。人脸表情的表示模型分为离散分类和连续维度,离散分类模型把面部表情分为六种基本表情,而连续维度模型通过建立连续的情感空间来描述复杂微妙且连续变化的表情。自然环境下的人脸复杂多变,且连续维度模型对表情进行了更加细致的划分。本文针对自然环境下的静态图片和动态视频场景下的连续维度模型的人脸表情识别问
情感估计是人机交互中至关重要的一环,让机器准确地理解用户情感可以建立起更加和谐的人机环境。由于面部表情是人类表达情感的主要方式,因此,基于人脸视频的情感估计成为近年来的研究热点。情感主要有离散分类和连续维度两种模型表示。其中,基于连续维度的情感模型将情感状态映射到一个连续的维度空间中,相较于离散分类的情感模型,它可以描述出更复杂、微妙的情感。因此,本文致力于探究自然环境下的人脸视频维度情感估计,具
随着当今社会的发展,对室内定位的需求日益增加,由于GPS等室外定位技术在室内定位的应用受到限制,目前室内多采用射频识别(Radio Frequency Identification,RFID)、红外线、超声波、Wi Fi、超宽带(Ultra-Wideband,UWB)等定位技术,其中UWB由于时间分辨率高、穿透性强、抗多径能力强等特点,使得其更适用于室内定位,而其他定位技术大都由于易受环境影响、定
在科技飞速发展的时代,科技文献数量增长的速度越来越快,但是科技文献一般篇幅较长,无法快速掌握核心内容,因此,急需一种科技文献关键短语提取方法。关键短语提取是指从一段文字中标注出能够概括该段文本核心意思的短语或词语。现有的大多数科技文献关键短语提取方法都基于词频信息,并没有包含足够的语义信息;很多方法属于单词级别,没有利用单词之间产生的短语信息,在提取多个单词的较长关键短语上效果不佳。针对上述问题,
关系抽取任务旨在从半结构化或非结构化文本中获取结构化的事实知识三元组,为知识图谱的构建提供数据支持。目前,常用的抽取方法主要是基于特征模式的关系抽取方法与基于神经网络的关系抽取方法。基于特征模式的关系抽取方法依靠手工设计的特征模板对半结构化或非结构化文本数据进行模式匹配而后提取出符合特定模式的关系知识,而基于神经网络的关系抽取方法则依赖于神经网络结构自动提取文本中与事实关系相关的上下文特征以提取关