基于深度学习的音视频显著性检测

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:maxiao19810628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显著性检测旨在模拟人类视觉系统的注意力机制。神经学研究指出人类视觉系统对同步的视听刺激产生的响应要大于单独的视觉刺激,从神经控制的角度表明声音对人眼的关注存在一定影响。然而,以往的视频显著性检测多侧重于视觉信息方面的研究,而忽略了听觉信息的相关作用。将音频引入视频显著性检测研究,可以更好地模拟真实视频观看场景下人眼对视听信息的处理过程,以及人类视觉系统的响应情况。为了更好地体现视觉关注中听觉的影响,需要对已有的基于深度学习的视觉关注模型重新设计,其中包括:多模态刺激情况下的显著性检测算法设计,及相关特征的提取、不同模态语义的交互和特征融合。特征提取部分依据视频帧和音频的不同模态进行分别处理,更有针对性地获得相应的视觉和听觉特征;语义交互和特征融合部分的重点在于合理模拟人脑视听刺激的交互方式,促进信息的有效融合。此外,为了进一步探索听觉和视觉刺激的相互作用,在多个卷积层采取了不同的语义交互方式。针对上述音视频显著性检测方案的关键技术难点,搭建了一个双流输入的端到端网络架构,该网络以音频和图像同时作为输入,以特征提取、语义交互和特征融合作为核心模块,以显著性预测图作为输出,并以此考察听觉刺激对视觉关注的影响。实验验证了在视频显著性检测研究中引入音频的合理性和有效性。其性能不仅优于没有考虑音频的方法,与同期发表的同类方法相比也具有一定的优越性。
其他文献
卒中是我国成人致死、致残的首位病因,给患者及社会发展带来了沉重负担。组织化管理方法能够一定程度上提升卒中医疗质量,但医疗机构后勤服务支撑能力的异质性为卒中组织化管理的效果带来不确定影响。为进一步完善卒中组织化管理模式,提升卒中治疗的科学性及系统性,本指南就院前急救系统及卒中急诊的组织化管理、急诊多学科协作团队的管理、绿色通道的持续质量改进、卒中单元及卒中门诊的组织化管理、卒中中心的区域协同网络建设
期刊
<正>我科在1993~1994年收治患儿中,选择3岁以内患支气管肺炎的患儿134例,对这些患儿进行分组护理,一组按肺炎护理常规进行护理,另一组加以胸背部按摩和拍打以辅助治疗,取得
期刊
随着视频大数据的日益积聚、硬件技术的不断突破和计算机视觉技术的迅猛发展,基于视频监控图像和深度学习的行人重识别技术在城市安防和智慧社区等领域中持续发力,应用前景广阔。然而,现实复杂场景下的行人重识别面临着非常严重的域偏差问题,光照、视角、分辨率等外部因素的差异都将对算法的精度产生严重干扰。因此研究行人重识别的域自适应问题对面向实际应用的算法落地有着极为重要的意义。基于对抗生成网络和聚类伪标签两种方
学位
新冠肺炎自2019年末爆发以来,全球每日新增确诊病例已达到数十万例。计算机断层扫描(CT)检查是一种高效敏感的新冠肺炎筛查手段,分割CT图像的新冠病灶是诊断新冠肺炎及监测临床病情的重要步骤。但由于缺乏经验丰富的放射科医师,对CT图像的分割很难大规模进行,急需探索高效的新冠肺炎病灶自动分割方法。常规的卷积神经网络分割模型参数较多,其泛化能力受限于训练样本数量。而常用于医学图像分割的UNet模型在应用
学位
航拍图像中的目标检测是计算机视觉相关研究中的一个热点领域,虽然已有诸多的研究成果,但只有较少的工作对深度学习目标检测模型应用于航拍目标检测任务上存在的问题进行了分析。通过对比自然图像和航拍图像两类图像的特征可知,目前航拍图像目标检测模型精度提升的瓶颈是航拍图像的目标特征存在显著不一致性导致的,图像中检测目标尺寸具有极大的差异性且部分目标绝对和相对像素面积均过小,这些问题导致了现有的检测模型的准确率
学位
遥感图像地物要素提取是遥感测图的关键环节之一,地物要素提取精度的高低直接影响测图成果的好坏。基于深度学习的遥感图像语义分割方法是当前快速提取地物要素的主要方法,居民地作为遥感图像中的典型面状地物要素,对其规则化提取方法进行研究,是探索解决遥感测图中地物要素提取问题的有效途径。为了解决现有语义分割网络获取的遥感图像居民地要素提取结果精度不高、轮廓不准确的问题,提出了多特征增强Deep Labv3+,
学位
随着无人机等便携大规模图像采集设备的普及,基于光学相机的三维重建技术在土木工程建设、数字化智慧城市等领域也得到了普及。使用无人机可以一次性采集大量的图像,其实际覆盖面积可达数十甚至数百平方公里。同时,无人机采集也可以非常方便的调节采集图像的高度、覆盖率、倾角等参数。但是采集的大量图像也产生了计算量庞大和计算时间过长等缺陷。尤其在稀疏重建阶段,传统的增量式稀疏重建需要不断进行捆集调整优化也使得重建时
学位
随着计算机视觉技术的快速发展,目标检测和动作检测等技术都慢慢开始发展并普及应用,因此引申出来一个很重要的技术,那就是人体姿态估计。这个技术的实现能帮助计算机快速理解人类动作和行为,并进一步提高人类的生活质量。在实时监测应用场合,自底向上的多人姿态估计方法更全面且更有优势。传统的自底向上多人姿态估计方法中关键点分组通常独立于关键点检测来解决,从而使其无法端到端训练并且具有次优的性能。针对这个问题,想
学位
髋关节疾病已经成为了近几年来严重影响人们生活的重要疾病之一。全髋关节置换手术是治疗髋关节疾病的重要手段,而髋臼窝和股骨头的中心点位置是否定位准确是全髋关节置换手术成功与否的关键。准确地定位出髋臼窝和股骨头中心点具有重要的临床意义。针对CT图像中的髋臼窝和股骨头中心点定位提出了两种方案。一种方案是基于空间配置网络的深度学习定位算法。针对空间配置网络定位精度不够的问题,通过在网络解码器部分引入残差模块
学位
图像中的物体目标检测和姿态估计一直受到广泛研究,并且在许多领域拥有实际应用,比如机器人操控,人机交互,虚拟现实和增强现实等。目标检测提供了图像中目标的类别和位置信息,姿态估计则提供了图像中目标的旋转和平移信息,可以更准确的获取图像中物体的位置。传统方法存在一些局限性,比如基于特征的方法不能很好的处理弱纹理对象;基于模板的方法不能很好的处理遮挡情况。目前基于深度学习的方法是物体目标检测和姿态估计的主
学位