多模态相似度学习方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：wing870202

【摘要】

：

相似度学习作为机器学习算法的一种,其目的在于自动并且准确的衡量输入样本之间的相关性。在人工智能领域,相似度学习在信息检索、多媒体和知识图谱构建等实际任务中已经取得

【作者】

：

高欣健

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2017年01期

【关键词】

：

多模态相似度学习表示学习层级语义关系注意力机制外部记忆结构深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相似度学习作为机器学习算法的一种,其目的在于自动并且准确的衡量输入样本之间的相关性。在人工智能领域,相似度学习在信息检索、多媒体和知识图谱构建等实际任务中已经取得了广泛的应用。但是传统的相似度学习方法往往仅从单一角度来衡量输入样本之间的相关性,在面对现实任务中的复杂模式时缺乏足够的表达能力。并且其参数和相似度的学习过程都缺乏可解释性,不符合人类的认知,对未来算法的改进没有积极作用。因此针对上述问题,为了更深入的研究机器学习和人工智能,本文从数据和模型两个角度对多模态相似度学习方法进行研究,包括非监督的表示学习和有监督的多模态相似度学习。本文的具体研究内容如下:(1)首先对多特征融合进行研究,提出一种基于局部投票的多特征融合方法。该方法打破了传统特征融合手段对每个单一特征的整体进行加权的局限,从不同特征的内部结构着手,对每种特征的有效局部结构进行投票加权。最终获得的多特征融合的结果在保留了每种特征的有效局部结构的同时,突出了数据有效信息,并且忽略了不同特征中的无效局部结构,去除了数据中的冗余信息;(2)其次对表示学习进行研究,将基于深度学习的表示学习方法和多特征融合方法进行结合。传统的深度学习方法虽然已经成为了表示学习的主流方法,但是并没有考虑输入数据的本身性质。利用多特征融合结果所包含的输入样本的不同物理和统计特性来指导卷积神经网络进行基于多特征卷积的表示学习,可以进一步提高表示学习的效果,同时避免了学习过程中的过拟合问题;(3)接着对多模态相似度学习方法进行研究,根据样本数据中所包含的不同物理或者语义意义,定义了不同的关系向量,将样本和样本之间的单模态相似度计算转化为样本和样本在不同关系下的多模态相似度计算,并且根据不同实际情况提出了不同的相似度计算方程,同时将平层的关系结构拓展成基于语义的层级关系结构,使得样本之间的相似度计算具有层级语义特性;(4)之后对复杂样本中不同内容给予不同注意力的问题进行研究,分别引入了注意力机制和外部记忆选择。其中注意力机制与人类的感知系统相类似,外部记忆选择与人类的学习过程相类似。注意力机制可以根据具体的实际需求给予输入样本中不同区域以不同的注意力权重,突出更加符合需求的内容。外部记忆选择可以根据之前已经学习到的初始学习结果指导当前的相似度学习,并根据实际情况分配不同的注意力权重,同时利用当前的相似度学习来更新之前学习到的初始记忆;(5)最终,将非监督的表示学习和有监督的多模态相似度学习整合在一个完整的深度结构之中并进行参数精调,利用表示学习的结果更新相似度学习过程中的参数,同时利用相似度学习过程中的参数更新表示学习的结果,最终达到最优解。实验证明了本文方法的有效性,同时不同的实验结果展示也体现了本文方法参数和计算过程的可解释性,体现了本文算法和人类的认知具有一定的共同点。

其他文献

基于嵌入学习的近重复视频检索和跨域情感分类研究

随着互联网技术和智能硬件设备的高速发展，丰富的多媒体数据出现在网络上。视频和文本作为两类重要的媒体信息载体，是多媒体信息处理领域中的重要研究对象。嵌入学习在多媒体数

学位

视频检索情感分类嵌入学习数据表示

虚拟网络跨层优化算法的研究

随着通信网络规模的巨型化，异构网络的多样化和多媒体业务的爆炸式增长，传统通信网络体系架构与网络资源分配及业务性能优化之间的矛盾日益加剧，虚拟化网络优化技术可有效地解决

学位

通信网络虚拟网络跨层优化凸优化

基于机器视觉的手势识别系统

随着模式识别技术和硬件条件的发展,人机交互系统已由传统的键盘、鼠标等设备向更高级的非接触交互方式转换,如语音识别、图像识别,以及各种体感设备。基于机器视觉的手势识

学位

人机交互模式识别手势识别HU不变矩模板匹配

无线Mesh网多接口多信道技术研究

多接口多信道技术通过为节点配置多个接口，并使用更多的频谱资源来提高网络容量，改善网络性能表现。本文在总结国内外对多接口多信道无线Mesh网的研究现状的前提下，围绕如何利用

学位

多接口多信道信道重分配路径选择干扰时延

基于H.264/AVC运动估计算法研究及优化

随着全球信息化的飞速发展，多媒体技术也被推向风潮浪尖。数字电视、网络视频、手机视频等的发展要求视频压缩技术具有实时性的特点。当前的H.264/AVC视频压缩标准具有甚低码

学位

H.264/AVC块匹配UMHexagonS运动估计

MIMO检测系统及功率分配问题研究

MIMO技术作为未来无线通信系统中极具竞争力的物理层核心技术，能够实现随机衰落与空间多路径传播的充分利用，具有能够提高数据传输速率、信道容量以及通信链路可靠性的优点。但

学位

MIMO系统信道估计功率分配能量收集

LED可见光通信系统多址干扰消除方法的研究

可见光通信(Visible Light Communication,VLC)是利用LED光源进行信息传输的新兴无线通信方式。其具有速率高、无电磁辐射、成本低、频谱丰富、保密性好等特点。多用户VLC系

学位

可见光通信多址干扰多用户检测盲自适应多用户检测

序列图像中目标检测与跟踪算法研究

基于视觉图像序列的目标检测与跟踪技术是计算机视觉研究领域的热点，其在武器制导、安防监控和智能机器人等方面有着广泛的应用。本文针对静态场景中运动目标的自动检测、标记

学位

目标检测标记定位轨迹预测模板匹配

基于定价的异构网络无线资源管理研究

当今用户的通信质量要求日益提高，对于无线资源的需求也随之增加。由于无线资源的匮乏和网络容量的有限，移动数据量的激增给传统的蜂窝网络架构带来严峻的挑战。异构网络的出现

学位

移动通信异构网络资源分配效用最大化

高移动性下可靠切换技术研究

高速列车不断提速,从最初的200km/h到350km/h,并期望能在不久的将来达到500km/h。速度的提升为旅客提供了极大的便利,但同时也给现有的车地无线通信系统带来了巨大的挑战。首

学位

LTE/LTE-A可靠切换高移动性CoMP双播群切换

多模态相似度学习方法研究

与本文相关的学术论文