跨模态学习相关论文
视频是信息社会中人们记录和反映现实生活的重要信息载体,包含丰富的语义信息。利用多媒体技术从包含多个场景活动的视频中定位出......
现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合.这些方法存在视觉信息......
声源分离任务是音频领域相对古老的任务之一,最初提出时,被赋予“鸡尾酒会问题”这个优雅的名字。该问题最初旨在解决复杂场景下人......
毫米波雷达定位技术基于人体反射的信号回波实现人员的位置估计。由于毫米波信号具有较强的环境适应力和一定的穿透能力,测距精度......
细粒度图像分类是计算机视觉中一个长期存在的基本问题,并支撑着现实世界的各种应用。细粒度图像分类的任务是识别子类别的视觉对......
深度学习方法的提出使得机器学习研究领域得到了巨大突破,但是却需要大量的人工标注数据来辅助完成.在实际问题中,受限于人力成本,......
随着高分辨光学遥感影像的发展,海量优质的遥感数据为地物观测提供了良好的条件。遥感影像多标签分类能够自动解译图像信息,快速批......
随着网络信息技术的发展,全球已经迈入了多媒体大数据时代。数据信息通常关联图像、文本、视频、音频等多种模态形式,多种模态数据......
甲骨文字图像可以分为拓片甲骨文字与临摹甲骨文字两类.拓片甲骨文字图像是从龟甲、兽骨等载体上获取的原始拓片图像,临摹甲骨文字......
伴随着电子商务平台的蓬勃发展,越来越多的人热衷于网络购物,其中,服装购买是在线购物中占比最大的部分,但是商城中服装种类繁多,......
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生......
社交图像包含两种模态的信息:视觉信息和社交标签信息.绝大部分跨模态学习领域的研究者,将其精力集中在多模态信息的共享特征空间学......