声学场景分类方法研究

来源 :江南大学 | 被引量 : 1次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学场景分类任务是计算机应用科学的分支,其目的在于定位以及分析出设备所处的环境。随着智能设备的普及以及物联网的发展,声学场景分类任务显得愈发重要。早期声学场景分类研究多基于传统算法以及机器学习方法,伴随计算机硬件的发展与大数据时代的到来,深度学习逐渐取代机器学习方法,成为声学场景分类任务的主流。然而目前在深度学习方面,声学场景分类任务在特征处理上多采用语音任务中常使用的梅尔频谱图,在网络结构上多采用计算机视觉所使用的方法,并没有针对声学场景的特殊性使用新的特征处理方式及网络结构。同时由于不同设备的物理特性及采集到的数据量存在差异,设备以及样本数量不匹配问题十分严重。针对上述问题,本文从多个角度对声学场景分类问题进行研究。具体而言,本文研究内容主要包括以下三个方面:(1)为了解决声学场景分类任务中不同语义特征之间的关系建模问题,提出一种端到端的语义信息卷积神经网络。该网络将二维的梅尔频谱图在时间方向切割并拼接为频谱图流,在提取高维特征的同时可以对声学场景中语义关系信息进行建模。同时为了提高模型的泛化性能,提出一种全新的数据增强方法,该方法通过交换不同语义的位置有效减少噪点对数据的影响,从而进一步增强网络的表征能力。(2)针对卷积神经网络在处理声学场景分类任务时,无法更加有效利用时频信息对不同通道间进行关系建模的问题,提出一种多维度卷积神经网络模型。该模型在通过二维卷积得到输入特征的高维特征图后,使用拉伸操作在时间以及频率维度对高维特征图进行降维。随后以一维卷积的方式在不同通道间进行关系建模,得到通道注意力矩阵。最后将二维卷积特征图与通道注意力矩阵相结合,并进行残差连接,让网络更加有效利梅尔频谱图的时频信息。(3)针对训练过程中不同样本的设备差异性较大的问题,本文提出了一种基于特征对齐的域自适应方法,用来解决声学场景分类任务中的设备不匹配问题。首先,设计了一个包含源域流和目标域流的双流网络,在每个流中使用两个子网络处理声学场景的梅尔频谱图特征和差分信息图特征,从而得到源域以及目标域的特征图用于进行特征对齐,随后根据源域以及目标域的特征进行降采样分类,并测试了特征对齐过程中不同损失函数的效果。最后,提出了一种交替训练的策略,用于处理配对和非配对样本之间的数据不平衡问题,有效解决了在训练过程中的数据偏移问题。综上所述,本文从特征,网络结构和域自适应三个角度对声学场景分类方法进行研究,针对不同的角度采用不同的数据集进行多个对比实验,验证了本文方法的有效性以及可行性。
其他文献
2014年以“选择性”为核心价值、以选考制度为改革重点的新一轮高考改革正式启动,时至今日已七年有余,新高考改革的重心逐渐从考试制度变革转向高中育人方式变革。生涯指导教学是普通高中育人方式变革中重要的一环,它是新高考环境下学生是否能全面健康发展而选考制度又是否能实现设计初衷的关键。而教师的质量决定着高中生涯指导教学的质量,但现阶段普通高中生涯指导教师存在着人数较少、专业性不够等问题。要提高普通高中生
学位
桩+锚索支护是我国深基坑支护中较常用的支护形式。本文介绍了桩锚支护结构的设计要点,施工关键。同时根据实际工程提出BIM技术在深基坑中的应用,通过方案优化,提出可行的施工方法,节约工期和造价。
期刊
随着信息技术的发展,图像作为信息传递的重要载体,其应用范围愈发广泛。然而,图像编辑软件的不断发展使得篡改图像内容变得愈发简单,篡改图像对社会信息安全带来极大危害。因此,社会亟需可靠有效的数字图像取证技术。本文针对图像拼接篡改检测及篡改区域定位展开相关研究,主要研究内容如下:首先,本文提出基于噪声不一致性的图像拼接篡改检测算法。该算法主要针对基于图像分割网络的图像拼接篡改检测算法容易受到图像语义内容
学位
我国是农业大国,“三农”问题始终是关系国计民生的根本性问题,要实现全面建设社会主义现代化国家的目标,必然离不开农业农村现代化。文章探讨了乡村振兴齐鲁样板打造过程中德州市发展数字农业的必要性,提出了德州市应注重数字农业发展的生产集约化、加工精准化、管理精细化、销售可溯化和服务信息化五大发展趋势,以期助推乡村振兴齐鲁样板的打造和德州市乡村全面振兴。
期刊
石油是人类的重要能源之一,是工业生产和人民生活一项不可或缺的战略资源,是经济发展、社会稳定和国家安全的重要保障。对于中国而言,石油消费逐年增加,但自给率不高,对外依存度逐年提升,所以围绕石油各方面的发展和问题都与国家的经济命脉有着紧密的联系。改革开放以来,中国积极融入全球化,参与国际分工,经济全球化影响力愈加明显。作为石油销售企业,做好石油产品的供应以满足市场需求,要研究石油供应链条发生的改变,根
学位
光束平差法(Bundle Adjustment,BA)是联合投影观测信息同时优化相机参数和空间点三维坐标的算法,也是同步定位和地图构建(Simultaneous Localization And Mapping,SLAM)后端优化的关键技术。SLAM系统能否在低功耗的嵌入式平台上满足实时性要求,是评估其能否应用于自动驾驶车端设备的关键指标。由于BA计算规模大、计算逻辑复杂,嵌入式CPU无法满足BA
学位
人体行为识别任务在包括但不限于人机交互、智能监控、医疗辅助、运动辅助等多个方面都有重要的学术意义和广阔的应用前景。在众多学者的不断努力下,人体行为识别任务取得了众多成果。由于现实环境下存在复杂背景、相机移动、光照强度变化以及行为中人体姿态变化等多种因素,让人体行为识别任务变得更具挑战性。现有的方法大多聚焦于空间特征提取网络或者时间特征提取网络的性能,却忽略了时空特征融合策略以及特征提取网络的输入特
学位
“高水平”“结构化”“创新型”的高职教师教学创新团队建设,是提升职业教育办学水平和人才培养质量的关键,也是职业教育高质量发展的重要支撑。高职教师教学创新团队建设要把握凸显“立德树人”教育理念、立足“四链对接”发展需求、聚力团队综合能力提升、实现团队“样板”示范引领的基本原则,从完善教学团队建设机制、强化教学团队专业和创新能力、健全教学团队培训和运行体系、搭建教师企业实践平台入手,探索有助于破除建设
期刊
风格迁移是图像融合的重要分支,风格迁移定义为从多幅图像中收集所有重要信息,并将其包含到更少的图像中(通常被包含在一副图像中)。这一幅图像比任何一幅源图像信息更丰富、更准确,它包含了所有必要的信息(通常包括内容信息和风格)。传统的风格迁移算法针对每一种风格图像,都要先手动建立一个数学或统计模型,再通过改变要做迁移的图像或视频帧来让它们更好地符合该模型。这种方法不仅耗费较大的人力资源,而且还有一个很大
学位
一般教学知识(General pedagogical knowledge,简称GPK)是跨学科的一般性的教育教学知识,是教师为创造有效的教学和学习环境所需要的原则性知识。一般教学知识是教师知识的重要构成,是教师有效教学的前提性知识,教师不仅要掌握学科知识和学科教学法知识,更要掌握有关教学、学生学习等的原理性、原则性知识。随着学生核心素养的提出和发展,教师的素养也被重视起来,教师的教学知识,尤其是一
学位